이번 포스트에서는 정책 개선, 정책 반복, 가치 반복까지의 내용을 정리해보고자 한다.
정책 개선
정의 : 정책 평가를 통해 계산된 새로운 상태가치를 이용해 최적의 행동을 선택하는 것
정책 반복
정의 : Prediction과 Contorl을 반복하면서 최적의 가치함수 V와 최적의 정책 π*을 찾아가는 알고리즘을 말한다
* Prediction : 새로운 상태가치 함수를 계산하는 과정
* Control : 새로운 정책을 생성하는 과정
가치 반복
최적 정책을 찾는 다른 방법
정의 : Prediction에서 최적의 상태 가치를 찾을 때까지 반복, (많이 반복)
최적의 상태가치를 찾으면 Contorl에서는 최적의 상태가치로부터 최적 정책을 추출하기만 한다(한번만)
'머신러닝' 카테고리의 다른 글
머신러닝 5주차 - (04/03) ε-greedy(탐욕) 정책에 관하여 (0) | 2025.04.10 |
---|---|
머신러닝 5주차 - (04/01) 몬테카를로 방법 (0) | 2025.04.09 |
머신러닝 4주차 (03/24) - 정책 평가, 반복 정책 평가 (0) | 2025.04.07 |
머신러닝 4주차 (03/21) - 동적계획법 : 최적 정책 선택 (0) | 2025.04.02 |
머신러닝 3주차 (03/23) - 가치함수 : 상태/행동의 가치 계산 (0) | 2025.04.02 |