개념
강화학습은 에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동을 배우는 학습 방식이다. 정답 라벨을 직접 주는 대신, 행동 결과에 대해 보상이나 패널티를 준다.
핵심 요소
- 상태: 현재 상황
- 행동: 에이전트가 선택할 수 있는 동작
- 보상: 행동 결과에 대한 점수
- 정책: 어떤 상태에서 어떤 행동을 할지 정하는 규칙
- 가치: 어떤 상태나 행동이 장기적으로 얼마나 좋은지 나타내는 값
시점 부터 받는 할인 누적 보상은 다음과 같다.
예시
벽돌깨기 게임에서는 화면 픽셀이 상태가 되고, 왼쪽·오른쪽·정지가 행동이 된다. 공이 벽돌을 맞추면 보상을 받고, 공을 놓치면 패널티를 받는다.
Frozen Lake는 강화학습을 설명하는 간단한 격자 게임이다. 현재 칸이 상태이고 상하좌우 이동이 행동이며, 구멍에 빠지지 않고 목표 지점에 도착하면 보상을 받는다. Q-learning을 사용하면 각 상태에서 어떤 행동이 좋은지 Q값으로 학습할 수 있다.