개념
랜덤 포레스트는 여러 개의 의사결정트리를 만들어 예측을 종합하는 앙상블 알고리즘이다. 단일 결정트리가 과적합되기 쉬운 단점을 줄이기 위해 만들어졌다.
동작 방식
원본 데이터에서 중복을 허용해 여러 개의 bootstrap 데이터셋을 만든다. 각 데이터셋으로 서로 다른 트리를 학습시킨 뒤, 분류에서는 다수결, 회귀에서는 평균으로 최종 예측을 만든다.
y^class=mode{h1(x),…,hM(x)}
y^reg=M1m=1∑Mhm(x)
장점
여러 트리가 서로 다른 관점에서 예측하므로 단일 트리보다 안정적이다. 데이터의 일부에만 과하게 맞는 위험을 줄이고 정확도를 높일 수 있다.