Iris 데이터셋

개념

Iris 데이터셋은 기계학습에서 자주 사용하는 고전적인 분류 데이터셋이다. 총 150개의 샘플이 있으며, 세 종류의 붓꽃을 구분하는 문제로 사용된다.

각 샘플은 네 가지 속성을 가진다.

한 샘플은 네 성분의 특징 벡터로 표현된다. 예를 들어 [5.1, 3.5, 1.4, 0.2] 같은 형태이다.

x = sepal length sepal width petal length petal width \in R^{4}

정답 라벨은 setosa, versicolor, virginica 세 종류이다. 컴퓨터에서는 보통 0, 1, 2 같은 숫자로 표현한다.

Iris 데이터셋은 지도학습, 분류, 의사결정트리를 설명할 때 좋다. 데이터가 숫자로 잘 정리되어 있어 지니 불순도나 엔트로피와 정보 이득을 이용한 분할 과정을 이해하기 쉽다.