๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

ํ•˜๋ฃจ๊ณต๋ถ€

(37)
์ œ 18์žฅ๐Ÿ“•Machine Learning_ML๐Ÿ“• 1. ๋จธ์‹ ๋Ÿฌ๋‹์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๋ฌด์—‡์ธ๊ฐ€ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ ์ž์ฒด์˜ ์–ด๋–ค ํŠน์„ฑ์„ ์ฐพ์•„๋‚ด๋Š” ํ”„๋กœ๊ทธ๋žจ์ด๋‹ค ๋จธ์‹ ๋Ÿฌ๋‹? ์ธ๊ณต์ง€๋Šฅ? ๋”ฅ๋Ÿฌ๋‹? ์ธ๊ณต์ง€๋Šฅ์€ ์ธ๊ฐ„์˜ ๋‡Œ๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ๋ชจ๋“  ํ”„๋กœ๊ทธ๋žจ์„ ๋œปํ•˜๊ณ  ๋”ฅ๋Ÿฌ๋‹์€ ์ฃผ๋กœ ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์ž์—ฐ์–ด๋ฅผ ๋ถ„์„ํ•˜๋Š”๋ฐ ์“ฐ์ธ๋‹ค . ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ณผ์ • - ์ƒ˜ํ”Œ๋ฐ์ดํ„ฐ + ์ •๋‹ต๊ฐ’ => X => ๋ชจ๋ธ => ๋ชจ๋ธ+์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ => ๊ฒฐ๊ณผ ์—ฌ๊ธฐ์„œ ๋ชจ๋ธ์ด๋ž€ - ๋จธ์‹ ๋Ÿฌ๋‹์•Œ๊ณ ๋ฆฌ์ฆ˜์—์˜ํ•ด ํ•™์Šต๋œ๊ฒฐ๊ณผ๋ฅผ์ €์žฅํ•˜๊ณ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฌผ ์ฃผ์–ด์ง„๋ฐ์ดํ„ฐ์…‹์—๋Œ€ํ•ด ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ•ด ์–ป์€(์˜ˆ์ธก์—์‚ฌ์šฉํ• ) ๊ทœ์น™๊ณผํŒจํ„ด๋“ฑ์„์ง€๋‹ˆ๊ณ ์žˆ๋‹ค 2. ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ• 2-1) ์ง€๋„ํ•™์Šต(supervisedlearning) โ— ์ž…๋ ฅ๊ฐ’๊ณผ ๊ทธ์—๋Œ€ํ•œ์ •๋‹ต์„ ์‚ฌ์šฉํ•ด์ด๋‘˜์˜๊ด€๊ณ„๋ฅผ๋ถ„์„ํ•˜๊ณ ์˜ˆ์ธก๋ชจ๋ธ์„์ƒ์„ฑ - ์˜ˆ)์ž๋™์ฐจ์˜ํŠน์„ฑ๊ณผ๊ฐ€๊ฒฉ์ž…๋ ฅ→ ์ค‘๊ณ ์ฐจ๊ฐ€๊ฒฉ์„์˜ˆ์ธก โ— ํšŒ๊ท€๋ฌธ์ œ..
๐Ÿ“‹ML_KNN_์•Œ๊ณ ๋ฆฌ์ฆ˜๐Ÿšฉ K-์ตœ๊ทผ์ ‘ ์ด์›ƒ(KNN) ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์„ ํ˜• ๊ณผ๊ณ„๋ฅผ ์ „์ œ๋กœ ํ•˜์ง€ ์•Š์Œ ๊ฐ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธก => ๊ฐ€๊นŒ์ด์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์˜ˆ์ธก๊ฐ’์ด ๊ฒฐ์ • K Nearest Neighbors => K๊ฐœ์˜ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ด์›ƒ ๋ฐ์ดํ„ฐ์— ์˜ํ•ด ์˜ˆ์ธก๋œ๋‹ค ๋ถ„๋ฅ˜ ๋ฐ ํšŒ๊ท€ ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๋ฐ ์‚ฌ์šฉ ๋‹ค์ค‘ ๋ถ„๋ฅ˜(2๊ฐœ ์ด์ƒ) ๋ฌธ์ œ์—์„œ ๊ฐ€์žฅ ๊ฐ„ํŽธํžˆ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์ง€ ์•Š๊ณ  ์˜ˆ์ธก์ด ๊นŒ๋‹ค๋กญ์ง€ ์•Š์€ ์ƒํ™ฉ์—์„œ KNN์„ ์‚ฌ์šฉํ•˜๋ฉด ๋น ๋ฅด๊ณ  ์‰ฝ๊ฒŒ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ ๊ธฐ์ค€ ๋ชจ๋ธ๋กœ๋„ ์‚ฌ์šฉ ์ฃผ๋กœ ๋ถ„๋ฅ˜(Classification)์—์„œ ์‚ฌ์šฉ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€(LogisticRegression)๋กœํ•ด๊ฒฐํ• ์ˆ˜ ์—†๋Š” 3๊ฐœ ์ด ์ƒ์˜ ๋ชฉํ‘œ ๋ณ€์ˆ˜๋“ค์„ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์Œ ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์— ์ ํ•ฉ ์žฅ์  -์ˆ˜์‹์— ๋Œ€ํ•œ ์„ค๋ช…์ด ๋ถˆํ•„์š”..
๐Ÿ“ขGit์„ค์ • & Github์‚ฌ์šฉ๋ฒ•๐Ÿ“ข ๐Ÿ”จGit ์„ค์ • ๋งํฌ์˜ ๊นƒ ํ™ˆํŽ˜์ด์ง€์—์„œ ์‚ฌ์–‘์— ๋งž๊ฒŒ ๋‹ค์šด๋กœ๋“œ https://git-scm.com/ Git git-scm.com Git Bashํด๋ฆญ๐Ÿ–ฑ ๋ช…๋ น์–ด๋ฅผ ์•Œ๊ณ ์‹ถ๋‹ค๋ฉด git help -a๋ฅผ ์ž…๋ ฅํ•ด๋ณด์ž git config --global user.name "๋ณธ์ธ์ด๋ฆ„"
์ œ 17์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ_ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ-2๐Ÿ“’ ์ „์ฒ˜๋ฆฌ ๊ณผ์ • 1) .isnull( ) ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜๋ฉด ๊ฒฐ์ธก์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด ์ค€๋‹ค. sum( )์„ ์ด์šฉํ•˜์—ฌ ๊ฒฐ์ธก์น˜ ๊ฐœ์ˆ˜๋ฅผ ํ™•์ธ 2) ์ „์ฒด ๋ฐ์ดํ„ฐ ๋Œ€๋น„ ๊ฒฐ์ธก์น˜์˜ ๋น„์ค‘์„ ๊ตฌํ•˜๋ ค๋ฉด = ๊ฒฐ์ธก์น˜ / ์ „์ฒด ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜ x 100 โœ… data.drop('ticket', axis=1, inplace=True) or โœ… del data['ticket'] ์ด์šฉํ•˜๊ธฐ 3) ticket ์ปฌ๋Ÿผ์„ ๋ˆ„๋ฝ์‹œํ‚จ csvํŒŒ์ผ์„ ์™ธ๋ถ€๋กœ ๋นผ๋‚ด๊ธฐ to_csv๋ฅผ ํ•  ๊ฒฝ์šฐ๋Š” ์ž๋™์œผ๋กœ csv์— ๋กœ์šฐ๋ช…์„ ๋งค๊ฒจ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ์ถ”ํ›„ ๋‹ค์‹œ importํ• ๋•Œ Unnamed :0 ์ปฌ๋Ÿผ์ด ๋“ค์–ด์˜ต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด index=False๋ฅผ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๐Ÿ“Œ Cabin ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์œ ๋„๋ณ€์ˆ˜ ์ƒ์„ฑ ๊ฐœ๋ณ„ ๊ฐ์‹ค ๋ฒˆํ˜ธ๋Š” ์˜๋ฏธ๊ฐ€ ์—†์Œ(123, 456 ...) cabin ๋ฐ..
์ œ 16์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ_ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ-1๐Ÿ“’ ์บ๊ธ€์€ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ฒฝ์ง„๋Œ€ํšŒ๋ฅผ ์ฃผ์ตœํ•˜๋Š” ์˜จ๋ผ์ธ ์ปค๋ฎค๋‹ˆํ‹ฐ์ž…๋‹ˆ๋‹ค. https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com ๋ฏธ๋ž˜์˜ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด, ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๊ฐ€ ๋˜๊ธฐ ์œ„ํ•ด ๋จธ์‹ ๋Ÿฌ๋‹ ์ž…๋ฌธํ•˜๊ธฐ์— ์ข‹์€ ์บ๊ธ€์˜ ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•ด๋ณด์ž. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ชฉ๋ก : 1. map ๋ฉ”์„œ๋“œ๋ฅผ ์ด์šฉํ•ด ์ปฌ๋Ÿผ ๋ชฉ๋ก์„ ๋Œ€๋ฌธ์ž๋กœ โœ… data.columns.map(..
๐Ÿค“ ๊นจ(์šฐ์น˜์ž!)์•Œ(๊ณ ํ•˜์ž!)๊ณต๋ถ€ : ์ƒ๊ด€ ๋ถ„์„ 1) ์ƒ๊ด€๋ถ„์„์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ? - ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์— ์–ด๋– ํ•œ ์„ ํ˜•์  ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋Š”์ง€ ๋ถ„์„ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ์ธก์ •. 1 ~ 0 ~ -1์˜ ๊ฐ’์œผ๋กœ ๋‚˜์˜ฌ ๋•Œ ๋ณดํ†ต ์ƒํ™ฉ์˜ ๋ฐ์ดํ„ฐ์—์„œ 0๊ณผ ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ƒ๊ด€์ด ์—†๋‹ค๋Š” ๋œป์ด๋ฉฐ 0๊ณผ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. Perfect๋‚˜ Strong์˜ coefficient๊ฐ€ ๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ๋Š” ๋“œ๋ฌผ๋ฉฐ ๋ฐ์ดํ„ฐ ๋‚ด์— bias๊ฐ€ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ์ ˆ์ฐจ๋ฅผ ๊ผญ ๊ฑฐ์ณ์•ผ ํ•œ๋‹ค. 2) ๐Ÿ”จ์ƒ๊ด€๊ณ„์ˆ˜์˜ ์ข…๋ฅ˜ ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” Pearson, Kendall, Spearman ๋“ฑ์ด ์žˆ๋Š”๋ฐ ์ผ„ํƒˆ๊ณผ ์Šคํ”ผ์–ด๋งŒ์€ ์ˆœ์œ„ ์ผ์น˜ ์ •๋„๋ฅผ ๊ฒ€์‚ฌํ•œ๋‹ค๋Š” ์ ์ด ์œ ์‚ฌํ•˜๋‹ค ๊ณผ์ •์ด ๋™์ผํ•˜์ง€ ์•Š๋”๋ผ๋„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋™์ผํ•˜๋‹ค๋ฉด ์ƒ๊ด€๊ณ„์ˆ˜ ๊ฐ’์€ ์กฐ๊ธˆ ๋‹ค๋ฅผ์ง€๋ผ๋„ ๋น„์Šทํ•œ ์ถ”๋ก ์„ ๋‚ด๋ฆฐ๋‹ค. ์•„๋ž˜ ์‚ฌ์ดํŠธ์—์„œ ์ผ„๋‹ฌ๊ณผ ์Šคํ”ผ์–ด๋งจ์˜ ์ƒ์„ธํ•œ ..
์ œ 15์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ_ํ‘œ์ค€ํ™” ๋“ฑ..๐Ÿ“’ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ์ดํ„ฐ ํ˜•์‹์— ๋Œ€ํ•œ ์ฒ˜๋ฆฌ ๊ณต๋ฐฑ ๋ฌธ์ž str.strip() : ์–‘์ชฝ ๊ณต๋ฐฑ ์ œ๊ฑฐ str.lstrip() : ์™ผ์ชฝ ๊ณต๋ฐฑ ์ œ๊ฑฐ str.rstip() : ์˜ค๋ฅธ์ชฝ ๊ณต๋ฐฑ ์ œ๊ฑฐ ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ถˆ๊ทœ์น™ํ•œ ๋Œ€์†Œ๋ฌธ์ž ๋ถˆ๊ทœ์น™ํ•œ ๊ตฌ๋ถ„ ๊ธฐํ˜ธ ์œ ํšจํ•˜์ง€ ์•Š์€ ๋ฌธ์ž ๋ถˆ๊ทœ์น™ํ•œ ๋‚ ์งœ ๋ฐ ์‹œ๊ฐ„ ํ‘œ๊ธฐ 1. ๋ผ๋ฒจ ํ˜•์‹ ํ†ต์ผ ๋ฐ์ดํ„ฐ์˜ ์ธ์ฝ”๋”ฉ ์ž‘์—…์— ํฌํ•จ 1-1) dictionary ํƒ€์ž…์œผ๋กœ encoding map์„ ์ƒ์„ฑํ•ด์„œ ์ ์šฉ โœ…df = pd.DataFrame({ }) _map = { } 1-2) df ๋ณ€์ˆ˜์˜ ' ' ์ปฌ๋Ÿผ์˜ ๊ฐ’์„ map ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•ด ๋ณ€ํ™˜ โœ… df[' '].map( ) 1-3) ์ฐพ์•„ ๋ฐ”๊พธ๊ธฐ์ธ replace()๋ฅผ ์จ๋„ ๋ฉ๋‹ˆ๋‹ค. โœ… df[' '] = df[' '].replace([ ๊ธฐ์กด๊ฐ’ ], [ ๋ฐ”๊ฟ€๊ฐ’ ]) 2. ๋ฌธ์ž..
์ œ 14์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”_matplotlib๐Ÿ“’ ๐Ÿงท Matplotlib ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ™˜๊ฒฝ์—์„œ ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์‹œ๊ฐํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ•˜์œ„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ธ 'pyplot'์„ ํ†ตํ•ด ์ฃผ์š” ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉ plotly, seaborn ๋“ฑ๊ณผ ๊ฐ™์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์ตœ๊ทผ ๊ฒฝ์Ÿ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Œ pandas ๊ฐ์ฒด์˜ ๊ธฐ๋ณธ์ ์ธ ์‹œ๊ฐํ™” ๋„๊ตฌ plot() ๋ฉ”์„œ๋“œ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™” ์ข…๋ฅ˜ ๋ผ์ธ ํ”Œ๋กฏ(line plot) ๋ฐ” ์ฐจํŠธ(bar chart) ํžˆ์Šคํ† ๊ทธ๋žจ(histogram) ๋ฐ•์Šค ํ”Œ๋กฏ(box plot) ์Šค์บํ„ฐ ํ”Œ๋กฏ(scatter plot) - ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ฐ€์ ธ์˜ค๊ธฐ โœ… import matplotlib.pyplot as plt โœ… cmd: pip install matplotlib plt.plot(y) ๊ธฐ๋ณธ : ๋ผ์ธ ํ”Œ๋กฏ(line plot) ๋ฐ์ดํ„ฐ๊ฐ€ ์‹œ๊ฐ„, ์ˆœ์„œ ๋“ฑ์— ๋”ฐ๋ผ..