머신러닝

머신러닝 4주차 (03/27) - 정책 개선, 정책 반복, 가치 반복까지

vitamin3000 2025. 4. 7. 22:15

 

이번 포스트에서는 정책 개선, 정책 반복, 가치 반복까지의 내용을 정리해보고자 한다.

 

정책 개선

정의 : 정책 평가를 통해 계산된 새로운 상태가치를 이용해 최적의 행동을 선택하는 것

 

 

정책 반복

정의 : Prediction과 Contorl을 반복하면서 최적의 가치함수 V와 최적의 정책 π*을 찾아가는 알고리즘을 말한다

* Prediction : 새로운 상태가치 함수를 계산하는 과정

* Control : 새로운 정책을 생성하는 과정

 

가치 반복

최적 정책을 찾는 다른 방법

정의 : Prediction에서 최적의 상태 가치를 찾을 때까지 반복, (많이 반복)

최적의 상태가치를 찾으면 Contorl에서는 최적의 상태가치로부터 최적 정책을 추출하기만 한다(한번만)