개념
특징 선택은 많은 feature 중 문제 해결에 도움이 되는 feature만 고르는 과정이다. 불필요하거나 중복된 특징을 줄이면 모델이 더 단순하고 안정적으로 작동할 수 있다.
선택된 특징 집합 의 예측 손실과 특징 수를 함께 고려하면 다음처럼 나타낼 수 있다.
왜 필요한가
feature가 많을수록 항상 좋은 것은 아니다. 중복 feature가 많으면 다중공선성이 생길 수 있고, 잡음 feature가 많으면 과적합 위험이 커진다.
예시
주가 예측에서는 시가, 고가, 저가, 종가, 거래량, 이동평균, RSI, MACD, 볼린저 밴드 같은 다양한 feature를 만들 수 있다. 이 중 어떤 feature가 실제 예측에 도움이 되는지 선택해야 한다.