엔트로피

엔트로피와 정보 이득에서 엔트로피는 데이터의 무질서도 또는 불확실성을 나타낸다. 한 노드에 여러 클래스가 골고루 섞여 있으면 엔트로피가 높고, 한 클래스만 있으면 낮다.

정보 이득

정보 이득은 어떤 속성으로 데이터를 분할했을 때 엔트로피가 얼마나 줄어드는지를 나타낸다. 엔트로피가 많이 줄어드는 분할은 데이터를 더 잘 구분한 것이다.

의사결정트리에서의 역할

의사결정트리지니 불순도뿐 아니라 엔트로피와 정보 이득을 사용해 분할 기준을 정할 수 있다. 목표는 분할 후 노드들이 더 순수해지도록 만드는 것이다.