인공지능/Reinforce_Learning

[PART2] CH04. Monte Carlo 기법을 활용한 최적 정책 찾기

아네스 2020. 12. 22. 18:26
반응형

Generalized Policy Iteration(복습)

우리가 모델을 알고있다면 action을 당연히 고를 수 있겠지만 모델을 모르는 상황이라면 행동을 결정하기 힘들다.

Exploitation : Greedy 한 선택

Exploration : 더 좋은 보상을 알아보기 위해서 비효율적일 수 있는 선택을 하는 탐험.

 

e-Greedy policy

아래 그림 보는게 더 이해 잘된다.

 

e-Greedy로 만들어지는 정책이 개선되는게 맞는가 ?

위 식은 증명 되어 있는건데, 그럼 아래에서 파란색을 임의의 Wi라고 했을 때 위 조건을 만속하면 부등호가 성립할 것.

자연스러우니 넘어가자.

 

e-탐욕적 정책 개선을 하면 최적 정책으로 수렴할까 ?

아니다. e의 확률로 원하지 않는 행동을 해야하기 떄문.

 

1/k(에피소드 인덱스)를 선택해서 점점 작아지게끔 만든다.

반응형