๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๋จธ์‹ ๋Ÿฌ๋‹

(5)
์ œ 24์žฅ๐Ÿ“•ML_LightGBM๐Ÿ“• lightGBM(Gradient Boosting Model)์€ ๋ฌด์—‡์ด๋ƒ? ๋จธ์‹ ๋Ÿฌ๋‹์˜ ์•™์ƒ๋ธ” ๊ธฐ๋ฒ•์—๋Š” ๋ฐฐ๊น…(bagging)๊ณผ ๋ถ€์ŠคํŒ…(boosting)์ด ์žˆ์Šต๋‹ˆ๋‹ค ๋ถ€์ŠคํŒ… ๊ธฐ๋ฒ•์— ํ•ด๋‹นํ•˜๋Š” ๊ฒƒ์ด XGBoost์ธ๋ฐ ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€์ง€๋งŒ ๊ทธ๋ฆฌ๋“œ ์„œ์น˜๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์„ ํ•˜๋Š”๋ฐ ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์†Œ๋ชจํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ ์ ์„ ๋ณด์™„ํ•œ ๊ฒƒ์ด lightGBM์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค ๋น ๋ฅธ ์‹œ๊ฐ„๊ณผ ์ ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์†Œ๋ชจํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์›๋ฆฌ๋Š” ๋ฐ‘์˜ ์‚ฌ์ง„์„ ํ†ตํ•ด ์„ค๋ช…๋“œ๋ฆด๊ฒŒ์š” lightGBM์€ ๊ธฐ์กด์˜ boosting ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค ๊ธฐ์กด boosting ๋ชจ๋ธ๋“ค์€ Level-wise ํ•˜๊ฒŒ ๋Š˜์–ด๋‚˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฉด์— lightGBM ๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” Leaf-wiseํ˜•ํƒœ๋กœ ๋Š˜์–ด๋‚ฉ๋‹ˆ๋‹ค. level wise = ํŠธ..
์ œ 21์žฅ๐Ÿ“•ML_RandomForest๐Ÿ“• ๐ŸŒฒ ์ •์˜ (RandomForest) ๊ฒฐ์ • ํŠธ๋ฆฌ์˜ ๋‹จ์ ์„(์˜ค๋ฒ„ํ”ผํŒ…) ๋ณด์™„์‹œ์ผœ์ค€ ์ƒ์œ„ ๋ชจ๋ธ ๋žœ๋ค์œผ๋กœ ์ƒ์„ฑํ•œ ๋งŽ์€ ๋‚˜๋ฌด๋กœ ์ด๋ฃจ์–ด์ ธ ์˜ˆ์ธก์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋งˆ์น˜ ์ˆฒ์ฒ˜๋Ÿผ ๋ณด์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฆ„์ด Random Forest๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. ๐ŸŽฏ ํ•ต์‹ฌ โ€ป ์•™์ƒ๋ธ” ๊ธฐ๋ฒ• ๊ฐ•๋ ฅํ•œ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  ๋ณด๋‹ค ์•ฝํ•œ ๋ชจ๋ธ ์—ฌ๋Ÿฌ ๊ฐœ๋ฅผ ์กฐํ•ฉํ•˜์—ฌ ๋” ์ •ํ™•ํ•œ ์˜ˆ์ธก์— ๋„์›€์„ ์ฃผ๋Š” ๋ฐฉ์‹ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ๋Š” ์•™์ƒ๋ธ” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•œ ํŠธ๋ฆฌ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜์ด๋ฉฐ ๊ฐ€์žฅ ๋งŽ์€ ๋น„์ค‘์„ ์ฐจ์ง€ํ•œ๋‹ค ๋ถ€์ŠคํŒ… ๋ชจ๋ธ๋ณด๋‹ค๋Š” ์†๋„, ์˜ˆ์ธก๋ ฅ ๋ฉด์—์„œ๋Š” ๋ชป ๋ฏธ์น˜์ง€๋งŒ ์‹œ๊ฐํ™”๊ฐ€ ๋งค์šฐ ๋›ฐ์–ด๋‚˜ ๋จผ์ € ์ดํ•ด๋„๋ฅผ ํ‚ค์›Œ์•ผ ํ•œ๋‹ค. ์ข…์†๋ณ€์ˆ˜๊ฐ€ ์—ฐ์†ํ˜•/๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์ธ ๊ฒฝ์šฐ์—๋„ ๋ชจ๋‘ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค. ์•„์›ƒ๋ผ์ด์–ด(์ด์ƒ์น˜)๊ฐ€ ๋ฌธ์ œ ๋  ์‹œ ์ข‹์€ ๋Œ€์•ˆ์ด ๋˜๋Š” ๋ชจ๋ธ์ด๋‹ค. ๊ฒฐ์ • ํŠธ๋ฆฌ๋กœ ์˜ค๋ฒ„ ํ”ผํŒ…์ด ์ผ์–ด ๋‚ ์”จ ์‚ฌ์šฉํ•˜๋ฉด ..
์ œ 20์žฅ๐Ÿ“•ML_๊ฒฐ์ • ํŠธ๋ฆฌ(Decision Tree)๐Ÿ“• ๊ฒฐ์ • ํŠธ๋ฆฌ(Decision Tree)โ“โ“โ“ • ๊ด€์ธก๊ฐ’๊ณผ ๋ชฉํ‘ฏ๊ฐ’์„ ์—ฐ๊ฒฐ์‹œ์ผœ์ฃผ๋Š” ์˜ˆ์ธก ๋ชจ๋ธ, ๋‚˜๋ฌด ๋ชจ์–‘์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•จ • ์ˆ˜๋งŽ์€ ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ๋ชจ๋ธ(based model)์ด ๋˜๋Š” ์ค‘์š” ๋ชจ๋ธ • VS ์„ ํ˜• ๋ชจ๋ธ : ์„ ํ˜• ๋ชจ๋ธ์ด ๊ฐ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ ๊ฐ’๋“ค์„ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด ๋‚˜๊ฐ”๋‹ค๋ฉด, ํŠธ๋ฆฌ ๋ชจ๋ธ์—์„œ๋Š” ๊ฐ ๋ณ€์ˆ˜์˜ ํŠน์ • ์ง€์ ์„ ๊ธฐ์ค€์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ ํ•ด๊ฐ€๋ฉฐ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๋งŒ๋“ฆ - ์ข…์†๋ณ€์ˆ˜๊ฐ€ ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ์™€ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ ๋ชจ๋‘์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ - ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ๋ฅผ ์‹œ๊ฐํ™”ํ•  ๋ชฉ์ ์œผ๋กœ ๊ฐ€์žฅ ์œ ์šฉ - ์•„์›ƒ๋ผ์ด์–ด๊ฐ€ ๋ฌธ์ œ ๋  ์ •๋„๋กœ ๋งŽ์„ ๋•Œ ์„ ํ˜• ๋ชจ๋ธ๋ณด๋‹ค ์ข‹์€ ๋Œ€์•ˆ์ด ๋  ์ˆ˜ ์žˆ๋‹ค. - ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌด์ˆ˜ํ•˜๊ฒŒ ์ชผ๊ฐœ์–ด ๋‚˜๊ฐ€๊ณ , ๊ฐ ๊ทธ๋ฃน์— ๋Œ€ํ•œ ์˜ˆ์ธก์น˜๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฐฉ์‹ ex) ๋‚จ์ž/์—ฌ์ž๋กœ ๋‚˜๋ˆ ์„œ ๊ฐ ๋ชฉํ‘ฏ๊ฐ’, ํ‰๊ท ์น˜๋ฅผ..
์ œ 19์žฅ๐Ÿ“•ML_Naive Bayes๐Ÿ“• ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ(Naive Bayes) ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ์ ์šฉํ•œ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๊ธฐ๋ฐ˜์˜ ๋ถ„๋ฅ˜ ๋ชจ๋ธ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  : X๊ฐ€ ์ผ์–ด๋‚ฌ์„ ๋•Œ Y๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ ์„ ์˜๋ฏธ ex) '๋ฌด๋ฃŒ'๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ๋“ค์–ด ์žˆ์„ ๋•Œ ํ•ด๋‹น ๋ฉ”์ผ์ด ์ŠคํŒธ์„ ํ™•๋ฅ  ์ŠคํŒธ ํ•„ํ„ฐ๋ง์„ ์œ„ํ•œ ๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ ๋ฒ”์šฉ์„ฑ์ด ๋†’์ง€๋Š” ์•Š์ง€๋งŒ ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค์ด ๋ชจ๋‘ ๋…๋ฆฝ์ ์ด๋ผ๋ฉด ์œ ์˜๋ฏธํ•˜๋‹ค. ๋”ฅ๋Ÿฌ๋‹์„ ์ œ์™ธํ•˜๊ณ  ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐ ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค์ด ๋ชจ๋‘ ๋…๋ฆฝ์ ์ด๊ณ  ๊ทธ ์ค‘์š”๋„๊ฐ€ ๋น„์Šทํ•  ๋•Œ ์œ ์šฉํ•จ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)์—์„œ ๊ฐ„๋‹จํ•˜์ง€๋งŒ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คŒ ๋ฒ”์ฃผ ํ˜•ํƒœ์˜ ๋ณ€์ˆ˜๊ฐ€ ๋งŽ์„ ๋•Œ ์ ํ•ฉํ•˜๋ฉฐ, ์ˆซ์žํ˜• ๋ณ€์ˆ˜๊ฐ€ ๋งŽ์€ ๋•Œ๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Œ โœ” ์žฅ์  ๋น„๊ต์  ๊ฐ„๋‹จํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์†ํ•˜๋ฉฐ ์†๋„ ๋˜ํ•œ ๋น ๋ฆ„ ์ž‘์€ ํ›ˆ๋ จ์…‹์œผ๋กœ๋„ ์ž˜ ์˜ˆ์ธกํ•œ๋‹ค. ๐Ÿ›‘ ๋‹จ์  ๋ชจ๋“  ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ€ ๊ฐ๊ฐ ๋…๋ฆฝ์ ์ž„์„ ์ „์ œ ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค์ด..
์ œ 18์žฅ๐Ÿ“•Machine Learning_ML๐Ÿ“• 1. ๋จธ์‹ ๋Ÿฌ๋‹์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๋ฌด์—‡์ธ๊ฐ€ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ ์ž์ฒด์˜ ์–ด๋–ค ํŠน์„ฑ์„ ์ฐพ์•„๋‚ด๋Š” ํ”„๋กœ๊ทธ๋žจ์ด๋‹ค ๋จธ์‹ ๋Ÿฌ๋‹? ์ธ๊ณต์ง€๋Šฅ? ๋”ฅ๋Ÿฌ๋‹? ์ธ๊ณต์ง€๋Šฅ์€ ์ธ๊ฐ„์˜ ๋‡Œ๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ๋ชจ๋“  ํ”„๋กœ๊ทธ๋žจ์„ ๋œปํ•˜๊ณ  ๋”ฅ๋Ÿฌ๋‹์€ ์ฃผ๋กœ ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์ž์—ฐ์–ด๋ฅผ ๋ถ„์„ํ•˜๋Š”๋ฐ ์“ฐ์ธ๋‹ค . ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ณผ์ • - ์ƒ˜ํ”Œ๋ฐ์ดํ„ฐ + ์ •๋‹ต๊ฐ’ => X => ๋ชจ๋ธ => ๋ชจ๋ธ+์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ => ๊ฒฐ๊ณผ ์—ฌ๊ธฐ์„œ ๋ชจ๋ธ์ด๋ž€ - ๋จธ์‹ ๋Ÿฌ๋‹์•Œ๊ณ ๋ฆฌ์ฆ˜์—์˜ํ•ด ํ•™์Šต๋œ๊ฒฐ๊ณผ๋ฅผ์ €์žฅํ•˜๊ณ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฌผ ์ฃผ์–ด์ง„๋ฐ์ดํ„ฐ์…‹์—๋Œ€ํ•ด ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ•ด ์–ป์€(์˜ˆ์ธก์—์‚ฌ์šฉํ• ) ๊ทœ์น™๊ณผํŒจํ„ด๋“ฑ์„์ง€๋‹ˆ๊ณ ์žˆ๋‹ค 2. ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ• 2-1) ์ง€๋„ํ•™์Šต(supervisedlearning) โ— ์ž…๋ ฅ๊ฐ’๊ณผ ๊ทธ์—๋Œ€ํ•œ์ •๋‹ต์„ ์‚ฌ์šฉํ•ด์ด๋‘˜์˜๊ด€๊ณ„๋ฅผ๋ถ„์„ํ•˜๊ณ ์˜ˆ์ธก๋ชจ๋ธ์„์ƒ์„ฑ - ์˜ˆ)์ž๋™์ฐจ์˜ํŠน์„ฑ๊ณผ๊ฐ€๊ฒฉ์ž…๋ ฅ→ ์ค‘๊ณ ์ฐจ๊ฐ€๊ฒฉ์„์˜ˆ์ธก โ— ํšŒ๊ท€๋ฌธ์ œ..