이번 포스트에서는 2주차에 배운 용어들을 정리해보고자 한다.
1. 상태전이확률 (P)
시간 t일 때 에이전트가 상태 s에서 행동 a를 취했을 때 s'으로 이동할 확률이다
이때 s'로 이동했을 때 시간은 t의 다음 시간이기 때문에 t+1이 된다
상태전이확률의 값이 1인경우 항상 동일한 결과로, 결정론적 환경, 아닌경우 환경론적 환경이라 한다
예를들어, 겨울철에 도로가 얼어있을 때 운전자가 직진하기위해 핸들을 잘 고정하고 있어도 운전자의 의지와 상관없이 차가 좌우로 미끄러지는 경우가 있다. 이런 경우를 환경론적 환경이라한다
확률론적 환경에서 상태전이확률을 계산하기위해 고려해야하는 상황은 너무나도 많다.
(나중에 .P는 사용하지 않는다) 우선, 결정론적 환경으로 P의 값을 1로 설정하고 강화학습을 진행한다
2. 보상 (R)
강화학습의 기준으로,
에이전트가 취한 행동에 대해 환경으로부터 좋고 나쁨의 평가를 수치적으로 받는 것을 '보상'이라 한다.
환경은 에이전트가 취한 행동에 대해 평가하여 결과가 좋으면 +를 나쁘면 -보상을 '즉각적'으로 줌으로써 방금 행동에 대한 결과를 알려준다
이때, 보상에는 여러가지 보상 수치값이 필요하며 절대값이 아닌 상대적 비율이 중요하다
강화학습에서 보상은 가장 중요한 요소이다
에이전트는 환경으로부터 상태와 보상값을 전달받아 행동(a)을 결정하는데,
책에서는 goal이 아닌 이동에 -1을 주고, goal이면 +1을 주는데, 이는 적은 이동 횟수로 도착지점에 도착할수록 보상의 크기가 커지도록 설정한 것이다.
즉, 보상의 합(G)이 가장 큰것 = 최단거리
*에이전트는 행동에 대한 의사결정만 수행하고, 환경이 이를 실행하고 평가한다
*St에서 받는 보상이 rt가 아니고 rt+1인 이유는 상태 s에서 상태 s'으로 에이전트가 이동한 후에야 환경이 에이전트 행동을 평가하고 그에 따른 보상을 받기 때문이다
3. 수익(G)
여러개의 보상값을 계산한 것
시간 t로부터 에이전트가 계속적으로 행동을 취한다고 가정했을 때 연결된 상태를 계속 이동하면서 게속해서 받는 보상의 총합을 수익 G라한다
이때 스탭 t마다 받는 보상의 크기가 크게 차이나더라도 무한대로 반복된다면 보상의 합은 무한대가 되어 어떤 경우가 더 좋은지 알 수 없게 된다.
따라서 감가율을 사용해 무한대로 값이 되지 않도록 한다
감가율의 크기에 따라 계속 받는 보상의 가치를 정의할 수 있다
감가율이 0에 가까우면 현재를, 1에 가까우면 미래를 더 중요하게 생각하는 것으로,
미래의 가치가 지금의 수익에 반영된다는 의미이다
따라서 이렇게 중요한 감가율은 알고리즘이나 환경적 특성을 고려하여 계산해야한다
*강화학습에서 에이전트는 가장 큰 수익을 가져다주는 행동을 학습한다
4. 정책(π)
에이전트가 어떤 상태에 있을 때 어떤 행동을 선택할지 결정하는 기준
= 정책 π는 시간 t 일 때 상태 s에서 행동 a를 선택할 확률을 의미
강화학습에서는 에이전트의 정책에 따라 어떤 상태에서 어떤 행동을 선택할지가 달라진다
따라서 강화학습에서 가장 중요한 것은 최적 정책을 찾는것이다
최적 정책이란 어떤 상태에서 수익 G가 최대가 되는 행동을 선택하는 정책을 말한다.
5. 에피소드
주어진 문제에서 초기 상태로부터 시작해서 목적 완료에 의한 성공 상태 도착이나 실패로 인한 상태 종료까지의 일련의 과정을 말한다
강화학습 문제에서는 에피소드에 끝이 있는 경우와 없는 경우로 나뉘는데,
없는 경우에는 임의로 예를들어 주식 투자의 경우 아침9시~오후4시까지를 하나의 에피소드로 정의하고 학습을 진행하면 된다
'머신러닝' 카테고리의 다른 글
머신러닝 4주차 (03/24) - 정책 평가, 반복 정책 평가 (0) | 2025.04.07 |
---|---|
머신러닝 4주차 (03/21) - 동적계획법 : 최적 정책 선택 (0) | 2025.04.02 |
머신러닝 3주차 (03/23) - 가치함수 : 상태/행동의 가치 계산 (0) | 2025.04.02 |
머신러닝 3주차 (03/20) - 마르코프 의사결정과정(MDP) (0) | 2025.04.02 |
머신러닝 1주차 (03/06) - 인공지능 개념과 머신러닝이란.. (0) | 2025.03.06 |