Ensemble Learning 앙상블러닝
함께, 동시에, 협력하여 : 이미 사용하고 있거나 개발한 알고리즘의 간단한 확장
Supervised Learning task에서 성능을 올릴 수 있는 방법
알고리즘 종류에 상관없이 서로 다르거나 같은 매커니즘으로 동작하는 다양한 머신러닝 모델을 묶어서 함께 사용하는 방식
Bagging
: 학습과정에서 training sample을 랜덤하게 나누어 선택
Bootstrapping(다수의 샘플 데이터세트를 생성해서 학습) + Aggregating (데이터 증강, 데이터 확충(실질적으로 새로운 데이터를 수집하지 않고도 교육 모형에 사용하는 데이터의 다양성을 늘릴 수 있는 전략))
모델을 병렬적으로 학습할 수 있고, 각 sample set가 다른 모델에 영향을 미치지 않음.
Boosting
: weak classifier(bias가 높은, model자체가 단순하여 높은 성능을 제공하지 않는)를 연속화하여 높은 성능을 제공할 수 있음.
Adaboost (대표적 boosting 알고리즘 : base classifier에 의해 오분류된 sample에 높은 가중치를 두어 다음 학습에 사용할 수 있게 함)
장점) 특정학습알고리즘에 구애받지 않음.
Bagging and Boosting
서로 다르게 학습된 decision tree의 결정에 따른 예측 수행
자체적으로 bagging(random forest)을 통해 학습 → 매 node에서 결정, 자체적으로 weak classification에 sequencial한 boosting을 수행(gradient boosting machine GBM)
Ensemble Classifier
장점) 예측성능을 안정적으로 향상, 쉽게 구분가능
단점) model parameter에 많은 튜닝이 필요
Performance evaluation
Accuracy : 정답=예측(TP,TN)/전체
Precision : TP/정답=예측
Recall : TP/TP+FN(실제 T)
unbalanced data의 경우 Accuracy 뿐만아니라 Precision과 Recall값도 동시에 봐야지 모델성능을 측정 가능하다.
ROC Curve
: 서로 다른 classifier의 성능을 측정하는 데 사용하는 curve
'AI > LG Aimers' 카테고리의 다른 글
[LG Aimers 교육] Module.3 비지도학습 (3) | 2022.07.24 |
---|---|
[LG Aimers 교육] Module.2 지도학습 -Part5. Advanced Classification (1) | 2022.07.17 |
[LG Aimers 교육] Module.2 지도학습 -Part4.Linear Classification (1) | 2022.07.13 |
[LG Aimers 교육] Module.2 지도학습 -Part3.Gradient Descent Algorithm (2) | 2022.07.11 |
[LG Aimers 교육] Module.2 지도학습 -Part2.Linear Regression (1) | 2022.07.11 |