제 21장📕ML_RandomForest📕

🌲 정의 (RandomForest)

결정 트리의 단점을(오버피팅) 보완시켜준 상위 모델

랜덤으로 생성한 많은 나무로 이루어져 예측을 하기 때문에 마치 숲처럼 보이기 때문에

이름이 Random Forest라고 불린다.

🎯 핵심

※ 앙상블 기법

강력한 하나의 모델을 사용하는 대신 보다 약한 모델 여러 개를 조합하여

더 정확한 예측에 도움을 주는 방식

랜덤 포레스트는 앙상블 기법을 사용한 트리 모델 중 하나이며 가장 많은 비중을 차지한다
부스팅 모델보다는 속도, 예측력 면에서는 못 미치지만 시각화가 매우 뛰어나 먼저 이해도를 키워야 한다.
종속변수가 연속형/범주형 데이터인 경우에도 모두 사용 가능하다.
아웃라이어(이상치)가 문제 될 시 좋은 대안이 되는 모델이다.
결정 트리로 오버 피팅이 일어 날씨 사용하면 좋은 대안이 되는 모델이다.

📚 내가 쓰려고 저장해놓을 라이브러리, 함수

라이브러리

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

함수

-전처리

df.engine.str.split(expend=True) = 열로 쪼개짐

str :문자열을 처리하는 메서드들을 불러올 수 있음

df.engine.str.split() # 리스트로 쪼개짐

missing_value = df.isnull( ).sum( ) = 결측치 확인

pd.options.display.float_format = "{:,.2f}".format = 소수점 두 번째 자리까지 표시

df.컬럼.str.uppr( ) = 대문자로 변환

df.컬럼.str.extract('([\d\.]+)').astype('float64') = 처음 검색되는 첫 번째 단어만 타입 변경

리스트(여러 개) 변경 시 extract_all

df = pd.get_dummies(df, columns=[' _ ' , ' _ ' ,' _ ' , ' _ ' , ' _ ' , ' _ ' ], drop_first=True

➡ _ , _ , _ , 등등 더미화

이름 변경 : ex) df.name = df.name.replace('Land', 'Land Rovar') = 네임 컬럼의 Land를 Land Rover로 변경

- 🏫모델링, 학습

from sklearn.model_selection import KFold

df.reset_index(drop=True, inplace=True) = index로 변환 원문에 적용

📌 하이퍼 패러미터 튜닝

model = RandomForestRegressor()

train_rmse_total = []
test_rmse_total = []
for train_index, test_index in kf.split(X): - 반복 <- 5 기준으로 나뉜 K-Fold
    X_train, X_test = X.loc[train_index], X.loc[test_index] - 독립변수들의 훈련 셋/시험 셋
    y_train, y_test = y[train_index], y[test_index] - 종속변수의 훈련 셋/시험 셋
    model = RandomForestRegressor(random_state=100)
    model.fit(X_train, y_train) - 학습
    train_pred = model.predict(X_train) -훈련셋 예측 (잘 학습되었나? 과최적화, 오버피팅?)
    test_pred = model.predict(X_test) - 시험 셋 예측 (잘 예측하나?, 언더 피팅)
    train_rmse = mean_squared_error(y_train, train_pred, squared=False)
    test_rmse = mean_squared_error(y_test, test_pred) ** 0.5 - ** 1/2
    train_rmse_total.append(train_rmse)
    test_rmse_total.append(test_rmse)

train_rmse_total, test_rmse_total

- 실제값, 예측값 -> 에러를 비교
print(
"train_rmse : ", sum(train_rmse_total) / len(train_rmse_total),
"test_rmse : ", sum(test_rmse_total) / len(test_rmse_total))

장점, 단점

💪장점

선형/비선형 데이터 모두 작동이 잘된다.
아웃라이어의 영향을 거의 받지 않는다.
대용량 데이터 처리에 효과적이다.
과적합 문제 최소화시켜서 모델의 정확도 향상에 도움을 준다

🩸단점

랜덤 포레스트 특성상 수백~ 수천 개의 트리를 형성하기 때문에 시간이 오래 걸림

모든 트리 모델을 확인하기 어렵기 때문에 해석 기능면에서는 떨어진다

'하루공부' 카테고리의 다른 글

제 22장📕ML_선형회귀(Linear Regression)📕 (0)	2022.11.17
🚩재미로 올리는 왕초보 Data Analysis(데이터 분석) 쉬운 예시 (0)	2022.11.16
제 20장📕ML_결정 트리(Decision Tree)📕 (0)	2022.11.12
제 19장📕ML_Naive Bayes📕 (0)	2022.11.11
제 18장📕Machine Learning_ML📕 (0)	2022.11.10

🌊김바다의 자기개발🌊

제 21장📕ML_RandomForest📕

🌲 정의 (RandomForest)

🎯 핵심

※ 앙상블 기법

강력한 하나의 모델을 사용하는 대신 보다 약한 모델 여러 개를 조합하여

더 정확한 예측에 도움을 주는 방식

📚 내가 쓰려고 저장해놓을 라이브러리, 함수

-전처리

- 🏫모델링, 학습

📌 하이퍼 패러미터 튜닝

장점, 단점

💪장점

🩸단점

'하루공부' 카테고리의 다른 글

티스토리툴바

제 21장📕ML_RandomForest📕

🌲 정의 (RandomForest)

🎯 핵심

※ 앙상블 기법

강력한 하나의 모델을 사용하는 대신 보다 약한 모델 여러 개를 조합하여

더 정확한 예측에 도움을 주는 방식

📚 내가 쓰려고 저장해놓을 라이브러리, 함수

-전처리

- 🏫모델링, 학습

📌 하이퍼 패러미터 튜닝

장점, 단점

💪장점

🩸단점

'하루공부' 카테고리의 다른 글

'하루공부' Related Articles

티스토리툴바