개념

데이터와 속성은 기계학습의 출발점이다. 컴퓨터가 데이터를 학습하려면 대부분의 경우 데이터를 숫자로 표현해야 한다. 데이터를 설명하는 특징을 속성 또는 feature라고 부른다.

예시

Iris 데이터셋에서는 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비가 속성이다. 각 꽃 샘플은 이 네 값을 가진 특징 벡터로 표현된다.

스팸 문자 분류에서는 단어, 문자 n-gram, tf-idf 값 등이 속성이 될 수 있다. 이미지 데이터에서는 픽셀 값, 에지, 필터 반응, CNN이 학습한 Feature Map이 속성이 될 수 있다.

샘플 개와 특징 개를 가진 데이터셋은 보통 다음 행렬로 표현한다.

왜 중요한가

모델이 아무리 좋아도 데이터를 잘못 표현하면 성능이 낮아질 수 있다. 즉 “문제를 어떻게 숫자로 바꿀 것인가”가 인공지능 문제 해결의 핵심이다.