๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

ํ•˜๋ฃจ๊ณต๋ถ€

์ œ 16์žฅ ๐Ÿ“’๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ_ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ-1๐Ÿ“’

์บ๊ธ€์€ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ฒฝ์ง„๋Œ€ํšŒ๋ฅผ ์ฃผ์ตœํ•˜๋Š” ์˜จ๋ผ์ธ ์ปค๋ฎค๋‹ˆํ‹ฐ์ž…๋‹ˆ๋‹ค.  

https://www.kaggle.com/

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

๋ฏธ๋ž˜์˜ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด, ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๊ฐ€ ๋˜๊ธฐ ์œ„ํ•ด ๋จธ์‹ ๋Ÿฌ๋‹ ์ž…๋ฌธํ•˜๊ธฐ์— ์ข‹์€

์บ๊ธ€์˜ ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•ด๋ณด์ž.

๋ต์ž‘

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ชฉ๋ก : 

1. map ๋ฉ”์„œ๋“œ๋ฅผ ์ด์šฉํ•ด ์ปฌ๋Ÿผ ๋ชฉ๋ก์„ ๋Œ€๋ฌธ์ž๋กœ

โœ… data.columns.map(str.upper) or โœ… data.rename(columns=str.upper)

 

2. ๋‚จ์ž๋ฅผ 0, ์—ฌ์ž๋ฅผ 1๋กœ ๊ฐ€์ง€๋Š” sex_num ์ปฌ๋Ÿผ ์ถ”๊ฐ€

# ์ปฌ๋Ÿผ์ถ”๊ฐ€

โœ… data['sex_num'] = -1

 # map์„ ํ™œ์šฉํ•ด ๋ณ€ํ™˜

โœ… data['sex_num'] = data["Sex"].map({'male':0, 'female': 1})

 

3. ์ด๋ฆ„ ๊ธธ์ด ๊ฐ’์„ ์ €์žฅํ•˜๋Š” name_lenth ์ปฌ๋Ÿผ ์ถ”๊ฐ€

# ์œ„์™€ ๊ฐ™์ด name_length ์ปฌ๋Ÿผ ์ถ”๊ฐ€ ํ›„ map๋ฉ”์„œ๋“œ ํ™œ์šฉํ•ด์„œ ๋ณ€ํ™˜

โœ… data['name_length'] = data["Name"].map(len)

 

 

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ํ›„ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ๊ตฌํ•˜์—ฌ ๊ด€๊ณ„๋ฅผ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ƒ์กด๊ณผ์˜ ๊ด€๊ณ„

- ์„ฑ๋ณ„์ด ์˜ํ–ฅ์„ ์คฌ๋Š”์ง€ ์—ฌ๋ถ€ ํ™•์ธํ•˜๊ธฐ

์„ฑ๋ณ„์€ ์–ด๋А ์ •๋„ ์˜ํ–ฅ์„ ์คฌ๋‹ค๊ณ  ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โœ…data[['Survived', 'sex_num']].corr()

๐ŸŽฏ ์ƒ๊ด€ ๋ถ„์„์— ๊ด€ํ•œ ๊ณต๋ถ€ ๋‚ด์šฉ ์ฐธ์กฐ

https://kmbeach.tistory.com/23

 

๐Ÿค“ ๊นจ(์šฐ์น˜์ž!)์•Œ(๊ณ ํ•˜์ž!)๊ณต๋ถ€ : ์ƒ๊ด€ ๋ถ„์„

1) ์ƒ๊ด€๋ถ„์„์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ? - ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์— ์–ด๋– ํ•œ ์„ ํ˜•์  ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋Š”์ง€ ๋ถ„์„ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ์ธก์ •. 1 ~ 0 ~ -1์˜ ๊ฐ’์œผ๋กœ ๋‚˜์˜ฌ ๋•Œ ๋ณดํ†ต ์ƒํ™ฉ์˜ ๋ฐ์ดํ„ฐ์—์„œ 0๊ณผ ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ƒ

kmbeach.tistory.com

 

- ์ด๋ฆ„ ๊ธธ์ด๊ฐ€ ์˜ํ–ฅ์„ ์คฌ๋Š”์ง€ ์—ฌ๋ถ€ ํ™•์ธํ•˜๊ธฐ
0.3 ์ด๋ฏ€๋กœ ๊ฑฐ์˜ ์•ฝ๊ฐ„์˜ ์˜ํ–ฅ๋งŒ์„ ์ฃผ์—ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โœ… data[['Survived', 'name_length']].corr()

 ์ƒ๊ด€๊ณ„์ˆ˜๋กœ๋งŒ ๋ณด๋ฉด ๋‚˜์ด๋Š” ์ƒ์กด ์—ฌ๋ถ€์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋‚˜์ด๋ฅผ ๊ตฌ๊ฐ„๋ณ„๋กœ ์„ธ๋ถ„ํ™”ํ•˜์—ฌ ๋‹ค์‹œ ๋น„๊ตํ–ˆ์„ ๋•Œ๋Š”

๋‚˜์ด๋Œ€ ๋ณ„๋กœ ์ƒ์กด์œจ๊ณผ์˜ ๊ด€๊ณ„๊ฐ€ ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋ฅผ ํ•จ๋ถ€๋กœ ํŒ๋‹จํ•˜๋ฉด ์•ˆ ๋˜๋Š” ์ค‘์š”ํ•œ ์˜ˆ์‹œ
โœ… data[['Survived','Age' ]].corr()

์–ด๋ฆฐ์•„์ด ~ ์ค‘๋…„ ์ง์ „๊นŒ์ง€ ๋Š์–ด์„œ๋ณด๊ณ   ์กฐ๊ฑด ์ƒ‰์ธ์œผ๋กœ 0์„ธ ~ 40์„ธ, 40์„ธ~์ตœ๋Œ€๋กœ ๋‘ ๊ฐ€์ง€์˜ ๊ฒฝ์šฐ๋กœ ๋‚˜๋ˆ„์–ด ๋น„๊ตํ•œ

๊ฒฐ๊ณผ์—๋„ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ๋ณด๋ฉด ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ : ~20, 20~40, 40~60, ์ตœ๋Œ€ 4๊ฐœ~5๊ฐœ์˜ ๊ตฌ๊ฐ„์œผ๋กœ ์„ธ๋ถ„ํ™”ํ•˜์—ฌ ๋ณด๋ฉด ์ƒ์กด์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค.
โœ… data[data["Age"] <=40][['Survived', 'Age']].corr()

์˜ํ–ฅ์„ ์ฃผ์ง€์•Š๋Š”๋‹ค.

โœ… data[data["Age"] >40][['Survived', 'Age']].corr()

๋งˆ์ฐฌ๊ฐ€์ง€์ด๋‹ค.