반응형
Generalized Policy Iteration(복습)
우리가 모델을 알고있다면 action을 당연히 고를 수 있겠지만 모델을 모르는 상황이라면 행동을 결정하기 힘들다.
Exploitation : Greedy 한 선택
Exploration : 더 좋은 보상을 알아보기 위해서 비효율적일 수 있는 선택을 하는 탐험.
e-Greedy policy
아래 그림 보는게 더 이해 잘된다.
e-Greedy로 만들어지는 정책이 개선되는게 맞는가 ?
위 식은 증명 되어 있는건데, 그럼 아래에서 파란색을 임의의 Wi라고 했을 때 위 조건을 만속하면 부등호가 성립할 것.
자연스러우니 넘어가자.
e-탐욕적 정책 개선을 하면 최적 정책으로 수렴할까 ?
아니다. e의 확률로 원하지 않는 행동을 해야하기 떄문.
1/k(에피소드 인덱스)를 선택해서 점점 작아지게끔 만든다.
반응형
'인공지능 > Reinforce_Learning' 카테고리의 다른 글
[PART2] CH05. Off-policy MC control (0) | 2020.12.23 |
---|---|
[PART2] CH04. SARSA TD 기법을 활용한 최적정책 찾기 (0) | 2020.12.22 |
[PART2] CH03. Temporal Difference (TD) 정책추정. (0) | 2020.12.21 |
[PART 2] Ch3. 몬테카를로 (0) | 2020.11.24 |
[Part2] 동적계획법 - 비동기적 동적계획법 (0) | 2020.11.20 |