개념

랜덤 포레스트는 여러 개의 의사결정트리를 만들어 예측을 종합하는 앙상블 알고리즘이다. 단일 결정트리가 과적합되기 쉬운 단점을 줄이기 위해 만들어졌다.

동작 방식

원본 데이터에서 중복을 허용해 여러 개의 bootstrap 데이터셋을 만든다. 각 데이터셋으로 서로 다른 트리를 학습시킨 뒤, 분류에서는 다수결, 회귀에서는 평균으로 최종 예측을 만든다.

장점

여러 트리가 서로 다른 관점에서 예측하므로 단일 트리보다 안정적이다. 데이터의 일부에만 과하게 맞는 위험을 줄이고 정확도를 높일 수 있다.