반응형
팡요랩의 노승연님이 Tacademy에서 강연한 강화학습 기초내용
다시 보면서 개념 정립하기 좋았다.
MDP의 정의나, MC, TD방식의 차이점이나 등등
가치함수를 어떻게 학습할지에 대한 방법론임.
MC : 에피소드가 끝날때까지 가봐야하기 때문에 샘플링이 어려움.
(리턴을 여러개 모아서(에피소드 샘플링) 그것의 평균으로 할거다)
TD : 스탭 크기에 따라 다르지만 에피소드 끝까지 가는것보다 샘플링이 쉬움.
스탭단위로 학습.
Expectation ( 기댓값 ) 이 잘 와닿지 않는데, 샘플들의 평균이라고 이해하는게 편함.
반응형
'인공지능 > Reinforce_Learning' 카테고리의 다른 글
[PART5] 심층강화학습 DQN (1) | 2021.01.30 |
---|---|
[PART 3] Ch 02. Pytorch로 선형회귀 모델 만들기 (0) | 2020.12.29 |
[PART 03] CH02. 심층 신경망을 활용한 함수근사(선형근사) (0) | 2020.12.29 |
[PART3] CH01. 함수근사 소개 (0) | 2020.12.25 |
[Part2] CH05. Off-policy TD contorl과 Q-Learning (0) | 2020.12.23 |