AI/LG Aimers

[LG Aimers 교육] Module.2 지도학습 -Part6. Ensemble

Opti-Mr 2022. 7. 19. 08:47
반응형

Ensemble Learning 앙상블러닝

함께, 동시에, 협력하여 : 이미 사용하고 있거나 개발한 알고리즘의 간단한 확장

  Supervised Learning task에서 성능을 올릴 수 있는 방법

알고리즘 종류에 상관없이 서로 다르거나 같은 매커니즘으로 동작하는 다양한 머신러닝 모델을 묶어서 함께 사용하는 방식

Bagging

: 학습과정에서 training sample을 랜덤하게 나누어 선택

Bootstrapping(다수의 샘플 데이터세트를 생성해서 학습) + Aggregating (데이터 증강, 데이터 확충(실질적으로 새로운 데이터를 수집하지 않고도 교육 모형에 사용하는 데이터의 다양성을 늘릴 수 있는 전략))

모델을 병렬적으로 학습할 수 있고, 각 sample set가 다른 모델에 영향을 미치지 않음.

 

Boosting

 : weak classifier(bias가 높은, model자체가 단순하여 높은 성능을 제공하지 않는)를 연속화하여 높은 성능을 제공할 수 있음.

  Adaboost (대표적 boosting 알고리즘 : base classifier에 의해 오분류된 sample에 높은 가중치를 두어 다음 학습에 사용할 수 있게 함)

장점) 특정학습알고리즘에 구애받지 않음.

 Bagging and Boosting

  서로 다르게 학습된 decision tree의 결정에 따른 예측 수행

  자체적으로 bagging(random forest)을 통해 학습 → 매 node에서 결정, 자체적으로 weak classification에 sequencial한 boosting을 수행(gradient boosting machine GBM)

Ensemble Classifier

장점) 예측성능을 안정적으로 향상, 쉽게 구분가능

단점) model parameter에 많은 튜닝이 필요

 

Performance evaluation

Accuracy : 정답=예측(TP,TN)/전체

Precision : TP/정답=예측

Recall : TP/TP+FN(실제 T)

unbalanced data의 경우 Accuracy 뿐만아니라 Precision과 Recall값도 동시에 봐야지 모델성능을 측정 가능하다.

 

ROC Curve

: 서로 다른 classifier의 성능을 측정하는 데 사용하는 curve

 

 

반응형