개념
과적합은 모델이 학습 데이터에는 너무 잘 맞지만 새로운 데이터에는 잘 일반화하지 못하는 현상이다. 모델이 실제 패턴뿐 아니라 학습 데이터의 잡음까지 외워버릴 때 발생한다.
과적합이 심할수록 학습 오차와 검증 오차의 차이가 커지는 경향이 있다.
발생 조건
- 데이터가 적을 때
- 특징 수가 너무 많을 때
- 모델이 너무 복잡할 때
- 훈련 데이터와 실제 데이터의 분포가 다를 때
- 중복되거나 상관이 높은 특징이 많을 때
대응 방법
딥러닝에서는 Dropout, L2 규제, Early stopping, 데이터 증강 등을 사용할 수 있다. 의사결정트리에서는 트리 깊이 제한, 최소 샘플 수 제한, 가지치기 등을 사용할 수 있다.