개념

Iris 데이터셋은 기계학습에서 자주 사용하는 고전적인 분류 데이터셋이다. 총 150개의 샘플이 있으며, 세 종류의 붓꽃을 구분하는 문제로 사용된다.

속성

각 샘플은 네 가지 속성을 가진다.

  • 꽃받침 길이
  • 꽃받침 너비
  • 꽃잎 길이
  • 꽃잎 너비

한 샘플은 네 성분의 특징 벡터로 표현된다. 예를 들어 [5.1, 3.5, 1.4, 0.2] 같은 형태이다.

라벨

정답 라벨은 setosa, versicolor, virginica 세 종류이다. 컴퓨터에서는 보통 0, 1, 2 같은 숫자로 표현한다.

연결

Iris 데이터셋은 지도학습, 분류, 의사결정트리를 설명할 때 좋다. 데이터가 숫자로 잘 정리되어 있어 지니 불순도엔트로피와 정보 이득을 이용한 분할 과정을 이해하기 쉽다.