본문 바로가기

머신러닝

(5)

제 24장📕ML_LightGBM📕 lightGBM(Gradient Boosting Model)은 무엇이냐? 머신러닝의 앙상블 기법에는 배깅(bagging)과 부스팅(boosting)이 있습니다 부스팅 기법에 해당하는 것이 XGBoost인데 높은 성능을 가지지만 그리드 서치를 이용하여 하이퍼 파라미터 튜닝을 하는데 많은 시간과 메모리를 소모하게 됩니다. 그 점을 보완한 것이 lightGBM이라고 생각하면 됩니다 빠른 시간과 적은 메모리를 소모하게 됩니다. 원리는 밑의 사진을 통해 설명드릴게요 lightGBM은 기존의 boosting 알고리즘과는 다르게 작동합니다 기존 boosting 모델들은 Level-wise 하게 늘어나는 방법을 사용하는 방면에 lightGBM 같은 경우에는 Leaf-wise형태로 늘어납니다. level wise = 트..

제 21장📕ML_RandomForest📕 🌲 정의 (RandomForest) 결정 트리의 단점을(오버피팅) 보완시켜준 상위 모델 랜덤으로 생성한 많은 나무로 이루어져 예측을 하기 때문에 마치 숲처럼 보이기 때문에 이름이 Random Forest라고 불린다. 🎯 핵심 ※ 앙상블 기법 강력한 하나의 모델을 사용하는 대신 보다 약한 모델 여러 개를 조합하여 더 정확한 예측에 도움을 주는 방식 랜덤 포레스트는 앙상블 기법을 사용한 트리 모델 중 하나이며 가장 많은 비중을 차지한다 부스팅 모델보다는 속도, 예측력 면에서는 못 미치지만 시각화가 매우 뛰어나 먼저 이해도를 키워야 한다. 종속변수가 연속형/범주형 데이터인 경우에도 모두 사용 가능하다. 아웃라이어(이상치)가 문제 될 시 좋은 대안이 되는 모델이다. 결정 트리로 오버 피팅이 일어 날씨 사용하면 ..

제 20장📕ML_결정 트리(Decision Tree)📕 결정 트리(Decision Tree)❓❓❓ • 관측값과 목푯값을 연결시켜주는 예측 모델, 나무 모양으로 데이터를 분류함 • 수많은 트리 기반 모델의 기본 모델(based model)이 되는 중요 모델 • VS 선형 모델 : 선형 모델이 각 변수에 대한 기울기 값들을 최적화하여 모델을 만들어 나갔다면, 트리 모델에서는 각 변수의 특정 지점을 기준으로 데이터를 분류 해가며 예측 모델을 만듦 - 종속변수가 연속형 데이터와 범주형 데이터 모두에 사용할 수 있음 - 모델링 결과를 시각화할 목적으로 가장 유용 - 아웃라이어가 문제 될 정도로 많을 때 선형 모델보다 좋은 대안이 될 수 있다. - 데이터를 무수하게 쪼개어 나가고, 각 그룹에 대한 예측치를 만들어내는 방식 ex) 남자/여자로 나눠서 각 목푯값, 평균치를..

제 19장📕ML_Naive Bayes📕 나이브 베이즈(Naive Bayes) 베이즈 정리를 적용한 조건부 확률 기반의 분류 모델 조건부 확률 : X가 일어났을 때 Y가 일어날 확률을 의미 ex) '무료'라는 단어가 들어 있을 때 해당 메일이 스팸을 확률 스팸 필터링을 위한 대표적인 모델 범용성이 높지는 않지만 독립변수들이 모두 독립적이라면 유의미하다. 딥러닝을 제외하고 자연어 처리에 가장 적합한 알고리즘 각 독립변수들이 모두 독립적이고 그 중요도가 비슷할 때 유용함 자연어 처리(NLP)에서 간단하지만 좋은 성능을 보여줌 범주 형태의 변수가 많을 때 적합하며, 숫자형 변수가 많은 때는 적합하지 않음 ✔ 장점 비교적 간단한 알고리즘에 속하며 속도 또한 빠름 작은 훈련셋으로도 잘 예측한다. 🛑 단점 모든 독립변수가 각각 독립적임을 전제 독립변수들이..

제 18장📕Machine Learning_ML📕 1. 머신러닝이란 무엇일까 데이터를 기반으로 학습하여 무엇인가 예측하거나, 데이터 자체의 어떤 특성을 찾아내는 프로그램이다 머신러닝? 인공지능? 딥러닝? 인공지능은 인간의 뇌를 모방하는 모든 프로그램을 뜻하고 딥러닝은 주로 이미지, 비디오, 자연어를 분석하는데 쓰인다 . 머신러닝의 과정 - 샘플데이터 + 정답값 => X => 모델 => 모델+새로운 데이터 => 결과 여기서 모델이란 - 머신러닝알고리즘에의해 학습된결과를저장하고있는 결과물 주어진데이터셋에대해 훈련을 진행해 얻은(예측에사용할) 규칙과패턴등을지니고있다 2. 머신러닝 기법 2-1) 지도학습(supervisedlearning) ● 입력값과 그에대한정답을 사용해이둘의관계를분석하고예측모델을생성 - 예)자동차의특성과가격입력→ 중고차가격을예측 ● 회귀문제..

이전 1 다음

티스토리툴바