개념
다중공선성은 여러 feature 사이에 강한 상관관계가 있어 서로 거의 같은 정보를 담고 있는 상태를 말한다.
왜 문제가 되는가
선형 회귀나 로지스틱 회귀 같은 모델에서는 다중공선성이 있으면 각 feature의 영향을 해석하기 어려워지고 모델이 불안정해질 수 있다.
인공신경망은 어느 정도 중복 특징을 흡수할 수 있지만, 중복 feature가 많으면 계산 낭비와 과적합 위험이 커진다.
특징 의 다중공선성은 분산 팽창 계수로 측정할 수 있다.
는 다른 특징들로 특징 를 회귀했을 때의 결정계수이다.
대응 방법
상관성이 높은 feature 중 대표만 남기거나, 특징 선택, 차원 축소를 고려할 수 있다. 표준화, 정규화, Dropout, L2, Early stopping 같은 규제도 도움이 된다.