개념
롤아웃은 MCTS에서 특정 노드부터 게임이 끝날 때까지 빠르게 시뮬레이션해 결과를 얻는 과정이다. playout 또는 simulation이라고도 부른다.
방식
롤아웃은 완전히 랜덤하게 진행할 수도 있고, 간단한 규칙이나 작은 모델을 사용할 수도 있다. 중요한 것은 많은 시뮬레이션을 빠르게 수행해 승패나 보상을 얻는 것이다.
결과의 사용
롤아웃 결과가 승리라면 점수를 높이고, 패배라면 낮추며, 무승부라면 중간값을 줄 수 있다. 이 결과는 MCTS의 Backpropagation 단계에서 경로 위 노드들의 방문 수와 가치 갱신에 사용된다.
번의 롤아웃 보상 으로 상태 가치를 다음처럼 추정할 수 있다.