머신러닝 5주차 - (04/03) ε-greedy(탐욕) 정책에 관하여
지난 포스트에서는 ε-greedy(탐욕) 정책 에 대해서 작성했었다.
이번 포스트에서는 ε-greedy 정책에 더 자세히 알아보고자 한다.
입실론은 임의의 작은 양수를 말한다.
우리는 0.0 <= 1.0 즉 0이상 1이하의 값으로 사용할 것이다.
0.0에 가깝게 입실론 값을 설정하면 최적의 해를 갖는 행동이 1의 값을 갖고, 나머지 행동은 0의 값을,
1.0에 가깝게 입실론 값을 설정하면 모든 행동이 동일한 확률 값을 가진다.
이때 행동 가치가 달라도 결과값(확률)은 동일함에 주의하라
위의 내용을 참고하면, 입실론이 1일 때 4개의 행동이 선택될 확률은 다음과 같이 계산된다
π(s,a) = {0.25, 0.25, 0.25, 0.25}
하지만 입실론이 점점 작아질 수록 최적 행동 A* = a4가 선택될 확률이 점점 커지게 되고, 입실론이 0일 때 각 행동이 선택될 확률은
π(s,a) = {0, 0, 0, 1} 이다.
입실론이 0일 때는 최적 행동 A* = a4인 왼쪽으로 가는 행동만 선택되는 탐욕정책이 여전히 반영되고 있음을 확인할 수 있다.
우리는 이전에 이와같은 국소해를 막기위해 행동가치를 이용해 확률로 행동을 선택하는 정책을 선택했었다.
따라서 위의 ε-greedy는 행동들이 선택될 확률을 변형시킨다.
좀 더 단순화한 ε-greedy는 다음과 같다,
a = A* if 확률이 ε보다 크다면,
π(s,a) =
a = 무작위 선택 그렇지 않으면
임의의 확률을 뽑았을 때 확률값이 ε보다 크다면 최적행동 A* = a4를 선택하고,
확률값이 ε보다 작다면 가능한 행동들 중에서 무작위로 행동을 선택하는 것이다.
정리해보자면..
최적의 정책을 학습하는 몬테카를로 방법의 Contorl은 ε-greedy을 이용함으로써 오른쪽과 아래쪽의 행동가치함수가 같음에도 오른쪽으로 가는 행동뿐만 아니라 아래쪽으로 가는 행동을 선택할 가능성도 생기기 때문에 국소해에 빠지지 않고 최적의 정책을 학습하게 된다.