머신러닝

머신러닝 4주차 (03/21) - 동적계획법 : 최적 정책 선택

vitamin3000 2025. 4. 2. 20:49

 

이전에도 말했듯, '정책'은 어떤 상태에서 행동을 선택할 확률이다.

 

상태가치함수와 행동가치함수를 이용해 상태가치와 행동가치를 계산한 후 최적의 행동을 계산한 정책이 최적 정책이라 할 수 있다.

 

이때 π의 값은 계속해서 바뀐다.

최적의 가치함수란 여러 정책 π중에서 가장 가치가 높은 정책을 나타내는 함수라는 의미로 위첨자로 *가 붙는다

 

처음에는 임의의 정책 π0에서 출발하여 여러 시행착오를 통해 π1, π2로 보상을 통해 정책이 평가되고 개선된다.

이러한 시행착오를 통해 최종적으로 높은 가치함수를 갖는 정책이 탄생하는데, 이것이 최적 정책이라한다

 

자, 정리해보자면 정책 π 을 가치(상태가치함수, 행동가치함수)를 기준으로 평가하는데, 

이때 상태가치함수와 행동가치함수에서는 π을 가지고 계산하기에 서로 필요하다. 

따라서 정책의 값을 먼저 임의의 값으로 설정하고 진행한다.

 

정책 π를 이용해 상태가지함수 V π를 평가하고, 그 가치함수를 이용해 다시 정책 π을 개선하는 과정을 무한히 반복하다보면, 
결국 최적 정책과 최적 가치함수는 같은 곳으로 수렴한다는 의미이다.

 

평가 : 정책 π을 이용해 각 상태의 새로운 상태가치 V π(s)르 계산하는 것

개선 : 각 상태의 상태가치  V π(s)를 이용해 새로운 정책 π로 개선하는 것