์บ๊ธ์ ๋ฐ์ดํฐ ๊ณผํ ๋ฐ ๋จธ์ ๋ฌ๋ ๊ฒฝ์ง๋ํ๋ฅผ ์ฃผ์ตํ๋ ์จ๋ผ์ธ ์ปค๋ฎค๋ํฐ์ ๋๋ค.
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
www.kaggle.com
๋ฏธ๋์ ๋ฐ์ดํฐ ์์ง๋์ด, ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ๊ฐ ๋๊ธฐ ์ํด ๋จธ์ ๋ฌ๋ ์ ๋ฌธํ๊ธฐ์ ์ข์
์บ๊ธ์ ํ์ดํ๋ ๋ฐ์ดํฐ์ ์ ํ์ฉํด๋ณด์.
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ชฉ๋ก :
1. map ๋ฉ์๋๋ฅผ ์ด์ฉํด ์ปฌ๋ผ ๋ชฉ๋ก์ ๋๋ฌธ์๋ก
โ data.columns.map(str.upper) or โ data.rename(columns=str.upper)
2. ๋จ์๋ฅผ 0, ์ฌ์๋ฅผ 1๋ก ๊ฐ์ง๋ sex_num ์ปฌ๋ผ ์ถ๊ฐ
# ์ปฌ๋ผ์ถ๊ฐ
โ data['sex_num'] = -1
# map์ ํ์ฉํด ๋ณํ
โ data['sex_num'] = data["Sex"].map({'male':0, 'female': 1})
3. ์ด๋ฆ ๊ธธ์ด ๊ฐ์ ์ ์ฅํ๋ name_lenth ์ปฌ๋ผ ์ถ๊ฐ
# ์์ ๊ฐ์ด name_length ์ปฌ๋ผ ์ถ๊ฐ ํ map๋ฉ์๋ ํ์ฉํด์ ๋ณํ
โ data['name_length'] = data["Name"].map(len)
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ํ ์๊ด๊ณ์๋ฅผ ๊ตฌํ์ฌ ๊ด๊ณ๋ฅผ ์ ์ถํ ์ ์์ต๋๋ค.
์์กด๊ณผ์ ๊ด๊ณ
- ์ฑ๋ณ์ด ์ํฅ์ ์คฌ๋์ง ์ฌ๋ถ ํ์ธํ๊ธฐ
์ฑ๋ณ์ ์ด๋ ์ ๋ ์ํฅ์ ์คฌ๋ค๊ณ ์ ์ถํ ์ ์์ต๋๋ค.
โ data[['Survived', 'sex_num']].corr()
๐ฏ ์๊ด ๋ถ์์ ๊ดํ ๊ณต๋ถ ๋ด์ฉ ์ฐธ์กฐ
https://kmbeach.tistory.com/23
๐ค ๊นจ(์ฐ์น์!)์(๊ณ ํ์!)๊ณต๋ถ : ์๊ด ๋ถ์
1) ์๊ด๋ถ์์ด๋ ๋ฌด์์ผ๊น? - ๋ ๋ณ์ ๊ฐ์ ์ด๋ ํ ์ ํ์ ๊ด๊ณ๋ฅผ ๊ฐ์ง๋์ง ๋ถ์ํ๋ ๊ธฐ๋ฒ์ผ๋ก ์๊ด๊ณ์๋ฅผ ์ด์ฉํ์ฌ ์ธก์ . 1 ~ 0 ~ -1์ ๊ฐ์ผ๋ก ๋์ฌ ๋ ๋ณดํต ์ํฉ์ ๋ฐ์ดํฐ์์ 0๊ณผ ๊ฐ๊น์ธ์๋ก ์
kmbeach.tistory.com
- ์ด๋ฆ ๊ธธ์ด๊ฐ ์ํฅ์ ์คฌ๋์ง ์ฌ๋ถ ํ์ธํ๊ธฐ
0.3 ์ด๋ฏ๋ก ๊ฑฐ์ ์ฝ๊ฐ์ ์ํฅ๋ง์ ์ฃผ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
โ
data[['Survived', 'name_length']].corr()
์๊ด๊ณ์๋ก๋ง ๋ณด๋ฉด ๋์ด๋ ์์กด ์ฌ๋ถ์ ์ํฅ์ ๋ฏธ์น์ง ์์ต๋๋ค. ํ์ง๋ง ๋์ด๋ฅผ ๊ตฌ๊ฐ๋ณ๋ก ์ธ๋ถํํ์ฌ ๋ค์ ๋น๊ตํ์ ๋๋
๋์ด๋ ๋ณ๋ก ์์กด์จ๊ณผ์ ๊ด๊ณ๊ฐ ํฌ๊ฒ ๋ํ๋ฉ๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ํจ๋ถ๋ก ํ๋จํ๋ฉด ์ ๋๋ ์ค์ํ ์์
โ
data[['Survived','Age' ]].corr()
์ด๋ฆฐ์์ด ~ ์ค๋ ์ง์ ๊น์ง ๋์ด์๋ณด๊ณ ์กฐ๊ฑด ์์ธ์ผ๋ก 0์ธ ~ 40์ธ, 40์ธ~์ต๋๋ก ๋ ๊ฐ์ง์ ๊ฒฝ์ฐ๋ก ๋๋์ด ๋น๊ตํ
๊ฒฐ๊ณผ์๋ ์๊ด๊ณ์๋ฅผ ๋ณด๋ฉด ์ํฅ์ ๋ฏธ์น์ง ์์ต๋๋ค.
ํ์ง๋ง : ~20, 20~40, 40~60, ์ต๋ 4๊ฐ~5๊ฐ์ ๊ตฌ๊ฐ์ผ๋ก ์ธ๋ถํํ์ฌ ๋ณด๋ฉด ์์กด์ ์ํฅ์ ์ฃผ๋ ๊ฒ์ผ๋ก ๋ํ๋๋ค.
โ
data[data["Age"] <=40][['Survived', 'Age']].corr()
โ data[data["Age"] >40][['Survived', 'Age']].corr()
'ํ๋ฃจ๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๐ขGit์ค์ & Github์ฌ์ฉ๋ฒ๐ข (0) | 2022.11.09 |
---|---|
์ 17์ฅ ๐๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_ํ์ดํ๋ ๋ฐ์ดํฐ์ ํ์ฉ-2๐ (0) | 2022.11.03 |
๐ค ๊นจ(์ฐ์น์!)์(๊ณ ํ์!)๊ณต๋ถ : ์๊ด ๋ถ์ (0) | 2022.11.02 |
์ 15์ฅ ๐๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_ํ์คํ ๋ฑ..๐ (0) | 2022.11.01 |
์ 14์ฅ ๐๋ฐ์ดํฐ ์๊ฐํ_matplotlib๐ (0) | 2022.10.30 |