팡요랩의 노승연님이 Tacademy에서 강연한 강화학습 기초내용 다시 보면서 개념 정립하기 좋았다. MDP의 정의나, MC, TD방식의 차이점이나 등등 가치함수를 어떻게 학습할지에 대한 방법론임. MC : 에피소드가 끝날때까지 가봐야하기 때문에 샘플링이 어려움. (리턴을 여러개 모아서(에피소드 샘플링) 그것의 평균으로 할거다) TD : 스탭 크기에 따라 다르지만 에피소드 끝까지 가는것보다 샘플링이 쉬움. 스탭단위로 학습. Expectation ( 기댓값 ) 이 잘 와닿지 않는데, 샘플들의 평균이라고 이해하는게 편함.