AlphaGo

개념

AlphaGo는 바둑에서 뛰어난 성능을 보인 인공지능 시스템이다. 딥러닝, 강화학습, MCTS를 결합해 복잡한 게임 탐색 문제를 해결했다.

AlphaGo는 노드의 가치를 평가하기 위해 롤아웃과 value network를 함께 사용했다. rollout은 단순한 랜덤이 아니라 빠른 규칙 기반 정책을 사용했고, value network는 현재 상태가 흑이나 백에게 얼마나 유리한지 예측했다.

AlphaGo Zero부터는 rollout 없이 value network 중심으로 Q값과 방문 횟수를 갱신하는 방향으로 발전했다. 이는 더 많은 부분을 학습된 모델이 담당하게 된 변화이다.

탐색에서는 가치 $Q$ , 정책망의 사전확률 $P$ , 방문 횟수 $N$ 을 결합해 수를 선택할 수 있다.

a^{*} = ar g a max [Q (s, a) + c_{puct} P (s, a) \frac{\sum _{b} N ( s , b )}{1 + N ( s , a )}]

AlphaGo는 게임 탐색에서 단순한 완전 탐색만으로는 부족한 문제를 신경망과 탐색의 결합으로 해결할 수 있음을 보여주었다.