머신러닝 4주차 (03/27) - 정책 개선, 정책 반복, 가치 반복까지

머신러닝

vitamin3000 2025. 4. 7. 22:15

정의 : 정책 평가를 통해 계산된 새로운 상태가치를 이용해 최적의 행동을 선택하는 것

정의 : Prediction과 Contorl을 반복하면서 최적의 가치함수 V와 최적의 정책 π*을 찾아가는 알고리즘을 말한다

* Prediction : 새로운 상태가치 함수를 계산하는 과정

* Control : 새로운 정책을 생성하는 과정

최적 정책을 찾는 다른 방법

정의 : Prediction에서 최적의 상태 가치를 찾을 때까지 반복, (많이 반복)

최적의 상태가치를 찾으면 Contorl에서는 최적의 상태가치로부터 최적 정책을 추출하기만 한다(한번만)

vitamin3000 님의 블로그

vitamin3000 님의 블로그 입니다.

시큐어코딩, profilepage, 오블완, 파이널 프로젝트, 김민태의 데브캠프 2기, 김민태의 데브캠프2기, Redux, 강화학습, TanstackQuery, react, #패스트캠퍼스 #패스트캠퍼스부트캠프 #프론트엔드부트캠프 #프론트엔드개발 #국비지원 #김민태의데브캠프, 티스토리챌린지, 머신러닝, 패스트캠퍼스 #부트캠프 #패스트캠퍼스데브캠프, zustand, 김민태의데브캠프2기#부트캠프, - #패스트캠퍼스 #패스트캠퍼스부트캠프 #프론트엔드부트캠프 #프론트엔드개발 #국비지원 #김민태의데브캠프, axios, webpack, react 따라하기,

vitamin3000 님의 블로그