개념
이미지 데이터는 픽셀 값으로 구성된다. 흑백 이미지는 보통 2차원 행렬로, 컬러 이미지는 가로 x 세로 x 채널의 텐서로 표현된다. RGB 이미지는 세 개의 채널을 가진다.
픽셀 값
픽셀 값은 보통 0부터 255까지의 숫자로 표현된다. 0은 검정에 가깝고, 255는 높은 밝기를 의미한다. MNIST처럼 28x28 이미지는 펼치면 784개의 특징 벡터가 된다.
픽셀 값을 0과 1 사이로 정규화할 때는 다음처럼 계산한다.
원시 픽셀의 한계
픽셀 값을 그대로 사용하면 단순한 KNN으로 분류할 수 있지만, 작은 이동, 조명 변화, 색 변화, 가림에 민감하다. 같은 물체라도 위치가 조금만 바뀌면 거리 계산 결과가 크게 달라질 수 있다.
해결 방향
이미지를 잘 표현하기 위해 에지 검출, 컨볼루션, Feature Map을 사용한다. 현대에는 CNN이 학습을 통해 필터를 자동으로 찾아 이미지의 중요한 패턴을 추출한다.