개념
UCT는 Upper Confidence bound applied to Trees의 약자로, MCTS에서 어떤 자식 노드를 선택할지 정하는 기준이다.
직관
UCT는 두 요소를 함께 본다.
- 활용: 지금까지 승률이나 평균 보상이 높은 노드를 더 자주 선택
- 탐험: 아직 방문이 적은 노드에도 보너스를 주어 시도
즉 이미 좋아 보이는 수만 고르지 않고, 덜 시도한 수에도 기회를 준다.
구성
일반적으로 UCT는 평균 보상 항과 탐험 보너스 항으로 구성된다. 방문 수가 적은 노드는 탐험 보너스가 커지고, 많이 방문한 노드는 실제 평균 성과가 더 중요해진다.
는 자식 노드 의 평균 보상, 는 부모 방문 횟수, 는 탐험 강도를 조절하는 상수이다.