IT 이론지식

배깅(Bagging)/부스팅(Boosting)

쥐PT 2024. 4. 23. 17:34
728x90
반응형
SMALL

앙상블 기법은 여러 개의 약한 학습기(weak learners)를 결합하여 하나의 강력한 학습기(strong learner)를 만드는 기계 학습 알고리즘입니다. 배깅(Bagging)과 부스팅(Boosting)은 앙상블 기법의 대표적인 방법론 중 두 가지입니다. 이 두 방법은 각기 다른 접근 방식과 특성을 가지고 있습니다. 이번 글에서는 배깅과 부스팅의 개념, 동작 원리, 장단점 등에 대해 자세히 알아보겠습니다.

배깅(Bagging)

개념:

  • 배깅은 Bootstrap Aggregating의 줄임말로, 중복을 허용한 리샘플링을 통해 다양한 데이터셋을 생성하고, 각 데이터셋에 대한 예측 결과를 평균 또는 투표를 통해 최종 예측을 수행하는 방법입니다.

동작 원리:

  1. 데이터 리샘플링:
    • 원본 데이터셋에서 중복을 허용하여 여러 개의 부트스트랩 샘플을 생성합니다.
  2. 모델 학습:
    • 각 부트스트랩 샘플에 대해 독립적인 학습기를 학습시킵니다.
  3. 결합:
    • 각 학습기가 예측한 결과를 평균화(회귀) 또는 투표(분류)를 통해 최종 예측을 수행합니다.

장점:

  • 과적합 감소: 다양한 데이터셋과 모델의 평균화를 통해 과적합을 방지합니다.
  • 병렬 처리: 각 학습기는 독립적으로 학습되므로 병렬 처리가 가능합니다.

단점:

  • 해석력: 여러 모델의 결합으로 인해 모델의 해석이 어려울 수 있습니다.
  • 계산 비용: 모델을 여러 개 학습하기 때문에 계산 비용이 높을 수 있습니다.

부스팅(Boosting)

개념:

  • 부스팅은 약한 학습기를 순차적으로 학습시켜, 이전 학습기의 오류를 보완하면서 최종 예측을 수행하는 앙상블 방법입니다.

동작 원리:

  1. 가중치 부여:
    • 초기에는 모든 데이터 포인트에 동일한 가중치를 부여합니다.
  2. 모델 학습:
    • 초기 학습기를 학습시키고, 잘못 예측한 데이터의 가중치를 높입니다.
  3. 재샘플링 및 학습:
    • 갱신된 가중치를 기반으로 다음 학습기를 학습시킵니다.
  4. 결합:
    • 각 학습기의 예측 결과에 가중치를 부여하여 최종 예측을 수행합니다.

장점:

  • 성능 향상: 이전 학습기의 오류를 보완하면서 전체적인 성능을 향상시킵니다.
  • 해석력: 각 학습기의 가중치를 통해 모델의 해석이 가능합니다.

단점:

  • 과적합: 과도한 반복 학습으로 인해 과적합될 수 있습니다.
  • 계산 비용: 순차적 학습으로 인해 계산 비용이 높을 수 있습니다.

결론

배깅과 부스팅은 앙상블 학습의 다양한 접근 방식을 제공하며, 각각의 특성과 장단점을 가지고 있습니다. 배깅은 각 모델이 독립적으로 학습되는 반면, 부스팅은 순차적으로 학습되면서 오류를 보완합니다. 이러한 특성을 고려하여 문제의 성격과 데이터 특성에 따라 적절한 앙상블 방법을 선택할 수 있습니다.

728x90
반응형
LIST