인공지능/Reinforce_Learning

강화학습 기초내용 contents

아네스 2021. 6. 10. 23:13
반응형

팡요랩의 노승연님이 Tacademy에서 강연한 강화학습 기초내용

다시 보면서 개념 정립하기 좋았다.

MDP의 정의나, MC, TD방식의 차이점이나 등등

 

가치함수를 어떻게 학습할지에 대한 방법론임.

MC : 에피소드가 끝날때까지 가봐야하기 때문에 샘플링이 어려움.

(리턴을 여러개 모아서(에피소드 샘플링) 그것의 평균으로 할거다)

TD : 스탭 크기에 따라 다르지만 에피소드 끝까지 가는것보다 샘플링이 쉬움.

스탭단위로 학습.

 

Expectation ( 기댓값 ) 이 잘 와닿지 않는데, 샘플들의 평균이라고 이해하는게 편함.

반응형