복습 강화학습 문제는 MDP로 정의된다. 마르코프 결정과정에서 최적 가치함수, 최적 정책을 구하는것이 목적. 최적 가치, 정책을 얻기 위해서 DP / MC,TD (환경을 알 때 / 모를 때) 정책 평가 : 주어진 정책의 가치함수를 계산하는 과정 정책 개선 : 우리가 알고있는 정책을 조금 더 나아지게 만드는 과정. 위 그림을 통해서 전반적인 교육과정 및 세부사항과 각 내용의 장단점, 특징을 이해하기. 지금까지 배운 강화학습 기법의 템플릿 정책 개선마다 새롭게 Q^pi_k를 추산하기 위해서 또 새롭게 샘플들을 모음. 좋은 특성은 아님. 새롭게 정책을 개선할 때 마다 환경과 interaction이 있어야하고 샘플링이 되야한다. 특히 시뮬레이션환경이 아니라 현실 환경이라면 그만큼 학습이 느려질 것임. 사람은 타..