개념
분류는 입력 데이터를 미리 정해진 클래스 중 하나로 나누는 지도학습 문제이다. 정답이 범주형일 때 사용한다.
모델이 클래스별 점수 를 출력하면 가장 큰 점수의 클래스를 예측한다.
점수를 확률로 바꿀 때는 softmax를 사용할 수 있다.
예시
- MNIST 손글씨 숫자를 0~9 중 하나로 분류
- 이메일을 정상 또는 스팸으로 분류
- Iris 데이터셋의 꽃을 세 종류 중 하나로 분류
- 고객을 이탈 또는 유지로 분류
- 신용 데이터를 부도 또는 정상으로 분류
모델
분류에는 의사결정트리, 랜덤 포레스트, XGBoost, 인공신경망, CNN 등이 사용된다. 어떤 모델이 좋은지는 데이터 크기, 특징의 형태, 해석 가능성, 성능 요구에 따라 달라진다.