개념
차원 축소는 많은 수의 특징을 더 적은 수의 특징으로 줄이는 방법이다. 데이터의 중요한 구조를 유지하면서 표현을 단순화하는 것이 목표이다.
PCA
PCA는 대표적인 차원 축소 방법이다. 서로 관련 있는 feature들을 조합해 새로운 축을 만들고, 중요한 정보가 많이 담긴 축만 남긴다.
데이터를 평균 중심화한 행렬을 라 하면 공분산 행렬은 다음과 같다.
PCA는 큰 고유값에 대응하는 고유벡터를 모은 행렬 로 데이터를 투영한다.
목적
차원 축소는 시각화, 계산량 감소, 잡음 감소, 다중공선성 완화에 도움을 준다. 비지도학습의 대표적인 작업 중 하나이기도 하다.