강화학습 기초내용 contents

인공지능/Reinforce_Learning

아네스 2021. 6. 10. 23:13

팡요랩의 노승연님이 Tacademy에서 강연한 강화학습 기초내용

다시 보면서 개념 정립하기 좋았다.

MDP의 정의나, MC, TD방식의 차이점이나 등등

가치함수를 어떻게 학습할지에 대한 방법론임.

MC : 에피소드가 끝날때까지 가봐야하기 때문에 샘플링이 어려움.

(리턴을 여러개 모아서(에피소드 샘플링) 그것의 평균으로 할거다)

TD : 스탭 크기에 따라 다르지만 에피소드 끝까지 가는것보다 샘플링이 쉬움.

스탭단위로 학습.

Expectation ( 기댓값 ) 이 잘 와닿지 않는데, 샘플들의 평균이라고 이해하는게 편함.

[PART5] 심층강화학습 DQN (1)	2021.01.30
[PART 3] Ch 02. Pytorch로 선형회귀 모델 만들기 (0)	2020.12.29
[PART 03] CH02. 심층 신경망을 활용한 함수근사(선형근사) (0)	2020.12.29
[PART3] CH01. 함수근사 소개 (0)	2020.12.25
[Part2] CH05. Off-policy TD contorl과 Q-Learning (0)	2020.12.23

아네스의 공부일지

I'll Never Stop Study. 게임 그만하고 현실 RPG를 해라.

ARM32보드, 롤링팬, 제노토큰, 공부이력, 동시사용, 비전공대학원생, 2월수익, 서빙봇, 빗썸, 첫달수익, 더스파, 혼합사용, 클린코드, 혼용사용, 기본, 비전공커리큘럼, 내돈내산, 캐글제대로해보고싶다, 소리끊김, 비비팬,

아네스의 공부일지