๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Python

(9)
์ œ 17์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ_ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ-2๐Ÿ“’ ์ „์ฒ˜๋ฆฌ ๊ณผ์ • 1) .isnull( ) ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜๋ฉด ๊ฒฐ์ธก์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด ์ค€๋‹ค. sum( )์„ ์ด์šฉํ•˜์—ฌ ๊ฒฐ์ธก์น˜ ๊ฐœ์ˆ˜๋ฅผ ํ™•์ธ 2) ์ „์ฒด ๋ฐ์ดํ„ฐ ๋Œ€๋น„ ๊ฒฐ์ธก์น˜์˜ ๋น„์ค‘์„ ๊ตฌํ•˜๋ ค๋ฉด = ๊ฒฐ์ธก์น˜ / ์ „์ฒด ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜ x 100 โœ… data.drop('ticket', axis=1, inplace=True) or โœ… del data['ticket'] ์ด์šฉํ•˜๊ธฐ 3) ticket ์ปฌ๋Ÿผ์„ ๋ˆ„๋ฝ์‹œํ‚จ csvํŒŒ์ผ์„ ์™ธ๋ถ€๋กœ ๋นผ๋‚ด๊ธฐ to_csv๋ฅผ ํ•  ๊ฒฝ์šฐ๋Š” ์ž๋™์œผ๋กœ csv์— ๋กœ์šฐ๋ช…์„ ๋งค๊ฒจ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ์ถ”ํ›„ ๋‹ค์‹œ importํ• ๋•Œ Unnamed :0 ์ปฌ๋Ÿผ์ด ๋“ค์–ด์˜ต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด index=False๋ฅผ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๐Ÿ“Œ Cabin ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์œ ๋„๋ณ€์ˆ˜ ์ƒ์„ฑ ๊ฐœ๋ณ„ ๊ฐ์‹ค ๋ฒˆํ˜ธ๋Š” ์˜๋ฏธ๊ฐ€ ์—†์Œ(123, 456 ...) cabin ๋ฐ..
์ œ 15์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ_ํ‘œ์ค€ํ™” ๋“ฑ..๐Ÿ“’ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ์ดํ„ฐ ํ˜•์‹์— ๋Œ€ํ•œ ์ฒ˜๋ฆฌ ๊ณต๋ฐฑ ๋ฌธ์ž str.strip() : ์–‘์ชฝ ๊ณต๋ฐฑ ์ œ๊ฑฐ str.lstrip() : ์™ผ์ชฝ ๊ณต๋ฐฑ ์ œ๊ฑฐ str.rstip() : ์˜ค๋ฅธ์ชฝ ๊ณต๋ฐฑ ์ œ๊ฑฐ ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ถˆ๊ทœ์น™ํ•œ ๋Œ€์†Œ๋ฌธ์ž ๋ถˆ๊ทœ์น™ํ•œ ๊ตฌ๋ถ„ ๊ธฐํ˜ธ ์œ ํšจํ•˜์ง€ ์•Š์€ ๋ฌธ์ž ๋ถˆ๊ทœ์น™ํ•œ ๋‚ ์งœ ๋ฐ ์‹œ๊ฐ„ ํ‘œ๊ธฐ 1. ๋ผ๋ฒจ ํ˜•์‹ ํ†ต์ผ ๋ฐ์ดํ„ฐ์˜ ์ธ์ฝ”๋”ฉ ์ž‘์—…์— ํฌํ•จ 1-1) dictionary ํƒ€์ž…์œผ๋กœ encoding map์„ ์ƒ์„ฑํ•ด์„œ ์ ์šฉ โœ…df = pd.DataFrame({ }) _map = { } 1-2) df ๋ณ€์ˆ˜์˜ ' ' ์ปฌ๋Ÿผ์˜ ๊ฐ’์„ map ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•ด ๋ณ€ํ™˜ โœ… df[' '].map( ) 1-3) ์ฐพ์•„ ๋ฐ”๊พธ๊ธฐ์ธ replace()๋ฅผ ์จ๋„ ๋ฉ๋‹ˆ๋‹ค. โœ… df[' '] = df[' '].replace([ ๊ธฐ์กด๊ฐ’ ], [ ๋ฐ”๊ฟ€๊ฐ’ ]) 2. ๋ฌธ์ž..
์ œ 14์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”_matplotlib๐Ÿ“’ ๐Ÿงท Matplotlib ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ™˜๊ฒฝ์—์„œ ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์‹œ๊ฐํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ•˜์œ„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ธ 'pyplot'์„ ํ†ตํ•ด ์ฃผ์š” ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉ plotly, seaborn ๋“ฑ๊ณผ ๊ฐ™์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์ตœ๊ทผ ๊ฒฝ์Ÿ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Œ pandas ๊ฐ์ฒด์˜ ๊ธฐ๋ณธ์ ์ธ ์‹œ๊ฐํ™” ๋„๊ตฌ plot() ๋ฉ”์„œ๋“œ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™” ์ข…๋ฅ˜ ๋ผ์ธ ํ”Œ๋กฏ(line plot) ๋ฐ” ์ฐจํŠธ(bar chart) ํžˆ์Šคํ† ๊ทธ๋žจ(histogram) ๋ฐ•์Šค ํ”Œ๋กฏ(box plot) ์Šค์บํ„ฐ ํ”Œ๋กฏ(scatter plot) - ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ฐ€์ ธ์˜ค๊ธฐ โœ… import matplotlib.pyplot as plt โœ… cmd: pip install matplotlib plt.plot(y) ๊ธฐ๋ณธ : ๋ผ์ธ ํ”Œ๋กฏ(line plot) ๋ฐ์ดํ„ฐ๊ฐ€ ์‹œ๊ฐ„, ์ˆœ์„œ ๋“ฑ์— ๋”ฐ๋ผ..
์ œ 12์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ๋ถ„์„_pandas(Series ์ž๋ฃŒํ˜•)๐Ÿ“’ Numpy๋ฅผ ๋ฐฐ์šด๊ฒƒ์€ Pandas ๋ฅผ ์“ฐ๊ธฐ ์œ„ํ•ด ๋„ˆ๋ฌด ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ ๋„ ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค๐Ÿ˜ฒ ๋“œ๋””์–ด ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”์— ์‹ค๋ฌด์—๋„ ๋งŽ์ด ์“ฐ์ด๋Š” pandas๐Ÿผ์— ๋Œ€ํ•ด ๋ฐฐ์šฐ๋Š” ์‹œ๊ฐ„์ž…๋‹ˆ๋‹ค. Pandas ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ๋ถ„์„์„ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ์•ˆ์ •์ ์ด๋ฉด์„œ๋„ ๊ฐ„ํŽธํ•˜๊ฒŒ ์ฒ˜๋ฆฌ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐํƒ€์ž…์œผ๋กœ ์—ด์„ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ (์ฐธ๊ณ ) Numpy : ์ „์ฒด ๋ฐฐ์—ด ์›์†Œ๋ฅผ ๋™์ผํ•œ ํƒ€์ž…์œผ๋กœ ์ œํ•œ ์ฃผ์š” ๊ธฐ๋Šฅ ๋ฐ์ดํ„ฐ ์ž…์ถœ๋ ฅ : csv, excel, RDB, JSON ๋“ฑ ๋‹ค์–‘ํ•œ ํฌ๋งท์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•์‹์„ ์‚ฌ์šฉ ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต : ๋ถ„๋ฆฌ, ๊ฒฐํ•ฉ, ๊ณ„์ธต, ํ”ผ๋ด‡ ๋“ฑ ํ†ต๊ณ„ ๋ถ„์„ ์ฒ˜๋ฆฌ ์ž๋ฃŒํ˜• Series 1์ฐจ์› ๋ฐฐ์—ด๊ณผ ์œ ์‚ฌํ•œ ์ž๋ฃŒํ˜• ์ƒ‰์ธ(index) : ํ–‰ ๋ฒˆํ˜ธ ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ์— ๋ถ€์—ฌํ•˜๋Š” ์†์„ฑ์œผ๋กœ ๊ธฐ๋ณธ๊ฐ’์€ 0๋ถ€ํ„ฐ ..
์ œ 11์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ๋ถ„์„_Numpy-2(์—ฐ์‚ฐ)๐Ÿ“’ ๐Ÿ“Œ์‚ฐ์ˆ ์—ฐ์‚ฐ 1. ๋”ํ•˜๊ธฐ : +, add() 2. ๋นผ๊ธฐ : -, subtract() 3. ๋‚˜๋ˆ„๊ธฐ : /, divide() 4. ๊ณฑํ•˜๊ธฐ : *, multiply() 5. ์ง€์ˆ˜๊ณฑ ํ‘œํ˜„ : exp() 6. ์ œ๊ณฑ๊ทผ : sqrt() 7. ๋กœ๊ทธ : log() 8. ๋‚ด์ (ํ–‰๋ ฌ๊ณฑ) : dot() ๐Ÿ”‘๋”ํ•˜๊ธฐ์™€ ๋นผ๊ธฐ๋Š” ๊ฐ™์€ ์—ด๋ผ๋ฆฌ ์—ฐ์‚ฐ ์ž‘์šฉ์ด ์ผ์–ด๋‚˜๊ณ  ๊ณฑ์…ˆ์€ ํ–‰๋ ฌ๊ณฑ์— ๋”ฐ๋ฅธ ์—ฐ์‚ฐ์ž‘์šฉ์ด ์ผ์–ด๋‚œ๋‹ค ๐Ÿ”‘ ๋”ํ•˜๊ธฐ์™€ ๊ณฑํ•˜๊ธฐ๋Š” ์•ž๋’ค ์ˆœ์„œ์˜ ๊ตฌ์• ๋ฅผ ๋ฐ›์ง€ ์•Š์ง€๋งŒ ๋นผ๊ธฐ์™€ ๋‚˜๋ˆ„๊ธฐ๋Š” ์ˆœ์„œ์— ๋”ฐ๋ผ ๊ฒฐ๊ด๊ฐ’์ด ๋‹ฌ๋ผ์ง„๋‹ค๋Š” ๊ฒƒ์„ ๋ช…์‹ฌํ•˜์ž ๐Ÿ“ŒNumpy ๋ฐฐ์—ด ์—ฐ์‚ฐ 2. ๋น„๊ต ์—ฐ์‚ฐ 1) ์š”์†Œ ๊ฐ’์— ๋Œ€ํ•œ ๋น„๊ต : ==, != ํฌ๊ธฐ์— ๋Œ€ํ•œ ๋น„๊ต : >, =,
์ œ 10์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ๋ถ„์„_Numpy-1๐Ÿ“’ Numpy Numeriacal Python ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ํŒจํ‚ค์ง€์ธ scikit-learn์—์„œ ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋กœ ์‚ฌ์šฉ๋˜์–ด Numpy ๋ฐฐ์—ด ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉ ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ™˜๊ฒฝ์—์„œ ํ–‰๋ ฌ ๋ฐ ๋ฒกํ„ฐ ์—ฐ์‚ฐ์— ํ•„์š”ํ•œ ๋‹ค์–‘ํ•œ ํ•จ์ˆ˜๋ฅผ ์ œ๊ณต ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋ชจ๊ฐ€ ๋งŽ์€ ๋ฐ˜๋ณต๋ฌธ ์—†์ด ์ „์ฒด ๋ฐ์ดํ„ฐ ๋ฐฐ์—ด์— ๋น ๋ฅธ ์—ฐ์‚ฐ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ‘œ์ค€ ์ˆ˜ํ•™ ํ•จ์ˆ˜ ๋ฐฐ์—ด : ๋™์ผํ•œ ํŠน์„ฑ(๋ฐ์ดํ„ฐ ํƒ€์ž…) ๋ฐ ์ผ์ •ํ•œ ๊ทœ์น™์„ ๊ฐ€์ง€๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์š”์†Œ๊ฐ€ ๋‚˜์—ด๋˜์–ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ ํŒŒ์ด์ฌ list ๊ฐ์ฒด๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ๋ณด๋‹ค Numpy์˜ ndarray ๊ฐ์ฒด๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์—ฐ์‚ฐ ์†๋„๊ฐ€ ๊ฐœ์„ ๋˜์–ด ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌ ๐Ÿ“Œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ฐ€์ ธ์˜ค๊ธฐ : numpy as ๋ณ„์นญ ์„ ์–ธ ์ดํ›„์—๋Š” ๋ณ„์นญ์œผ๋กœ ํ•ด๋‹น ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ๊ธฐ๋Šฅ์„ ํ˜ธ์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. import ๋ผ..
์ œ 9์žฅ ๐Ÿ“’ํŒŒ์ด์ฌ(python) ๊ตฌ์กฐ์ฒด์™€ ํด๋ž˜์Šค๐Ÿ“’ ๊ตฌ์กฐ์ฒด ํด๋ž˜์Šค ์ด์ „์— ๊ตฌ์กฐ์ฒด๋ฅผ ๋จผ์ € ๊ณต๋ถ€ํ•˜๋Š” ์ด์œ ๋Š” ํด๋ž˜์Šค๊ฐ€ C์–ธ์–ด์˜ ๊ตฌ์กฐ์ฒด์—์„œ ํ™•์žฅ๋œ ๊ฐœ๋…์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ตฌ์กฐ์ฒด๋ž€ ๋ฐฐ์—ด๊ณผ๋Š” ๋‹ฌ๋ฆฌ ์ธ๋ฑ์Šค๊ฐ€ ์•„๋‹Œ "๋ณ€์ˆ˜๋ช…"์œผ๋กœ ํŠน์ • ๋Œ€์ƒ์„ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์ ์œผ๋กœ ๋ฌ˜์‚ฌํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ถ”์ƒํ™” ์ถ”์ƒํ™”๋Š” ๋Œ€์ƒ์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋Š”๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผํ…Œ๋ฉด ์‚ฌ๋žŒ์„ ๋งŒ์•ฝ ์ปดํ“จํ„ฐ์ ์œผ๋กœ ํ‘œํ˜„ํ•œ๋‹ค๋ฉด ์›๋ž˜๋Œ€๋กœ๋ผ๋ฉด ํ‘œํ˜„ํ•ด์•ผํ•˜๋Š” ์š”์†Œ๊ฐ€ ๋„ˆ๋ฌด๋งŽ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ ‡์ง€๋งŒ ํ”„๋กœ๊ทธ๋žจ์ ์œผ๋กœ ํ‘œํ˜„ ์š”์†Œ๋ฅผ ์ค„์ด๊ณ  ์ค„์—ฌ์„œ ํ•„์ˆ˜์ ์ธ ์š”์†Œ๋งŒ ํ‘œํ˜„ํ•˜๋Š”๊ฒƒ์ด ๊ฐœ๋ฐœ์— ์œ ๋ฆฌํ•˜๊ธฐ์— ์ถ”์ƒํ™”๋ฅผ ํ•˜๊ฒŒ๋ฉ๋‹ˆ๋‹ค. ์ถ”์ƒํ™” ์˜ˆ์‹œ ๊ณ ์–‘์ด์˜ ์š”์†Œ : ํ„ธ ์ƒ‰๊น”, ์ˆ˜์—ผ ๋ชจ์ˆ˜, ๋ชธ๋ฌด๊ฒŒ, ํ’ˆ์ข…, ์ด๋ฆ„, ๋‚˜์ด, ์„ ํ˜ธํ•˜๋Š” ๊ฐ„์‹, ์ฃผ์ธ, ์ง‘, ์„ฑ๋ณ„, ๊ฑด๊ฐ•์ƒํƒœ, ์ ํ”„๋ ฅ, ์šธ์Œ์†Œ๋ฆฌ, ๋ฐœํ†ฑ๊ธธ์ด...... ๋™๋ฌผ๋ณ‘์›์— ๋“ฑ๋กํ•˜๋Š”๋ฐ์—๋Š” [์ฃผ์ธ, ์ด๋ฆ„, ๋‚˜์ด, ํ’ˆ์ข…](, ..
์ œ 6์žฅ ๐Ÿ“˜ํŒŒ์ด์ฌ ๊ธฐ์ดˆ_ํ•จ์ˆ˜๐Ÿ“˜ > ๋ฐ˜๋ณต์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋Šฅ์„ ๋ฌถ์–ด์„œ ํ•จ์ˆ˜๋กœ ์ •์˜ํ•˜๋ฉด ๊ฐ„ํŽธํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. โ–ถ ๊ธฐ๋ณธ ๋ฌธ๋ฒ• def ํ•จ์ˆ˜์ด๋ฆ„(๋งค๊ฐœ๋ณ€์ˆ˜) : return โ–ถ ๋งค๊ฐœ๋ณ€์ˆ˜ - ํ•จ์ˆ˜ ์•ˆ์—์„œ ์‚ฌ์šฉํ•  ๊ฐ’์„ ์ „๋‹ฌํ•˜๋Š” ๋ณ€์ˆ˜๋กœ ๋ฌธ์žฅ์—์„œ ๋ณ€์ˆ˜๋กœ ์‚ฌ์šฉ๋œ๋‹ค. - ํ•จ์ˆ˜ ์ •์˜๋ฌธ์—์„œ๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ์„œ ์„ ์–ธ๋˜๋ฉฐ ์‹ค์ œ๋กœ ํ•จ์ˆ˜๋ฅผ ํ˜ธ์ถœํ•  ๋•Œ๋Š” ์ธ์ž๊ฐ’์œผ๋กœ ์ „๋‹ฌ๋œ๋‹ค. โ–ถ ์šฉ์–ด - def : ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ํ‚ค์›Œ๋“œ - return : ํ•จ์ˆ˜์˜ ๊ฒฐ๊ณผ๊ฐ’์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ํ‚ค์›Œ๋“œ - ์ž…๋ ฅ๊ฐ’ = ์ธ์ˆ˜, ์ž…๋ ฅ ์ธ์ˆ˜, ์ธ์ž - ๊ฒฐ๊ณผ๊ฐ’ = ์ถœ๋ ฅ๊ฐ’, ๋ฆฌํ„ด๊ฐ’, ๋Œ๋ ค์ฃผ๋Š” ๊ฐ’, ๋ฐ˜ํ™˜ ๊ฐ’ โฉ ๊ธฐ๋ณธ์ ์ธ ํ•จ์ˆ˜์˜ ์˜ˆ์ œ(์™„์ „ํ•œ ์‹คํ–‰๋ฌธ) def ์‚ฌ๋žŒ(): print("๋ˆˆ์ด ๋‘ ๊ฐœ") print("์ž…์ด ํ•œ ๊ฐœ") โฉ ๊ธฐ๋ณธ์ ์ธ ํ•จ์ˆ˜์˜ ์˜ˆ์ œ(๋ถˆ์™„์ „ํ•œ ์‹คํ–‰๋ฌธ) def plus(a): print(a..