배깅(Bagging)/부스팅(Boosting)

IT 이론지식

배깅(Bagging)/부스팅(Boosting)

쥐PT 2024. 4. 23. 17:34

728x90

SMALL

앙상블 기법은 여러 개의 약한 학습기(weak learners)를 결합하여 하나의 강력한 학습기(strong learner)를 만드는 기계 학습 알고리즘입니다. 배깅(Bagging)과 부스팅(Boosting)은 앙상블 기법의 대표적인 방법론 중 두 가지입니다. 이 두 방법은 각기 다른 접근 방식과 특성을 가지고 있습니다. 이번 글에서는 배깅과 부스팅의 개념, 동작 원리, 장단점 등에 대해 자세히 알아보겠습니다.

배깅(Bagging)

개념:

배깅은 Bootstrap Aggregating의 줄임말로, 중복을 허용한 리샘플링을 통해 다양한 데이터셋을 생성하고, 각 데이터셋에 대한 예측 결과를 평균 또는 투표를 통해 최종 예측을 수행하는 방법입니다.

동작 원리:

데이터 리샘플링:
- 원본 데이터셋에서 중복을 허용하여 여러 개의 부트스트랩 샘플을 생성합니다.
모델 학습:
- 각 부트스트랩 샘플에 대해 독립적인 학습기를 학습시킵니다.
결합:
- 각 학습기가 예측한 결과를 평균화(회귀) 또는 투표(분류)를 통해 최종 예측을 수행합니다.

장점:

과적합 감소: 다양한 데이터셋과 모델의 평균화를 통해 과적합을 방지합니다.
병렬 처리: 각 학습기는 독립적으로 학습되므로 병렬 처리가 가능합니다.

단점:

해석력: 여러 모델의 결합으로 인해 모델의 해석이 어려울 수 있습니다.
계산 비용: 모델을 여러 개 학습하기 때문에 계산 비용이 높을 수 있습니다.

부스팅(Boosting)

개념:

부스팅은 약한 학습기를 순차적으로 학습시켜, 이전 학습기의 오류를 보완하면서 최종 예측을 수행하는 앙상블 방법입니다.

동작 원리:

가중치 부여:
- 초기에는 모든 데이터 포인트에 동일한 가중치를 부여합니다.
모델 학습:
- 초기 학습기를 학습시키고, 잘못 예측한 데이터의 가중치를 높입니다.
재샘플링 및 학습:
- 갱신된 가중치를 기반으로 다음 학습기를 학습시킵니다.
결합:
- 각 학습기의 예측 결과에 가중치를 부여하여 최종 예측을 수행합니다.

장점:

성능 향상: 이전 학습기의 오류를 보완하면서 전체적인 성능을 향상시킵니다.
해석력: 각 학습기의 가중치를 통해 모델의 해석이 가능합니다.

단점:

과적합: 과도한 반복 학습으로 인해 과적합될 수 있습니다.
계산 비용: 순차적 학습으로 인해 계산 비용이 높을 수 있습니다.

결론

배깅과 부스팅은 앙상블 학습의 다양한 접근 방식을 제공하며, 각각의 특성과 장단점을 가지고 있습니다. 배깅은 각 모델이 독립적으로 학습되는 반면, 부스팅은 순차적으로 학습되면서 오류를 보완합니다. 이러한 특성을 고려하여 문제의 성격과 데이터 특성에 따라 적절한 앙상블 방법을 선택할 수 있습니다.

728x90

LIST

'IT 이론지식' 카테고리의 다른 글

MLCC(Multi-Layer Ceramic Capacitor) (0)	2024.04.25
ANOVA(Analysis of Variance) (0)	2024.04.23
BYOD(Bring Your Own Device) (0)	2024.04.23
소프트웨어 대가 산정 (Software Cost Estimation) (0)	2024.04.23
HAZOP(Hazard and Operability Study) (0)	2024.04.23

현재글배깅(Bagging)/부스팅(Boosting)

AI가 알려주는 IT지식

250x250

프로젝트, 데이터, 통계학, 비즈니스, 데이터베이스, 네트워크, 비지도학습, 딥러닝, 전이학습, 분류, 인공신경망, 인증, 머신러닝, 소프트웨어, 뉴로모픽, 클라우드, 보안, 인공지능, 라우팅, 프로토콜,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

AI가 알려주는 IT지식