[PART2] CH04. SARSA TD 기법을 활용한 최적정책 찾기

인공지능/Reinforce_Learning

[PART2] CH04. SARSA TD 기법을 활용한 최적정책 찾기

아네스 2020. 12. 22. 18:52

TD 복습

TD(n) : n-step까지의 Return + 이후의 가치 추산치 활용

SARSA : TD(0)를 활용한 행동 가치 함수 Q파이 추산

SARSA 의사 코드

임의의 policy에 대해서 가치를 추산하는 코드...

sampling된 에피소드에 대해서 terminal state가 될때까지 반복한다.

SARSA control : SARSA policy evaluation + e-탐욕적 정책 개선

GLIE조건을 만족시키면서 학습시키는건 어렵다.

현실적으로 좋은 성능을 보이지도 않음.

n-step TD복습

n-step SARSA

SARSA(람다)

람다는 파라미터고 람다가 1에 가까워질수록 분산이 커지고 편향이 낮아지고

람다가 0에 가까워질수록 분산이 작아지고 편향이 커진다.

'인공지능 > Reinforce_Learning' 카테고리의 다른 글

[Part2] CH05. Off-policy TD contorl과 Q-Learning (0)	2020.12.23
[PART2] CH05. Off-policy MC control (0)	2020.12.23
[PART2] CH04. Monte Carlo 기법을 활용한 최적 정책 찾기 (0)	2020.12.22
[PART2] CH03. Temporal Difference (TD) 정책추정. (0)	2020.12.21
[PART 2] Ch3. 몬테카를로 (0)	2020.11.24

현재글[PART2] CH04. SARSA TD 기법을 활용한 최적정책 찾기

아네스의 공부일지

I'll Never Stop Study. 게임 그만하고 현실 RPG를 해라.

공부이력, 혼용사용, 소리끊김, 클린코드, 동시사용, 서빙봇, 기본, 첫달수익, 비전공커리큘럼, 더스파, 2월수익, 혼합사용, 비비팬, 롤링팬, 캐글제대로해보고싶다, 비전공대학원생, 빗썸, ARM32보드, 제노토큰, 내돈내산,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

아네스의 공부일지

[PART2] CH04. SARSA TD 기법을 활용한 최적정책 찾기

TD 복습

SARSA : TD(0)를 활용한 행동 가치 함수 Q파이 추산

SARSA 의사 코드

SARSA control : SARSA policy evaluation + e-탐욕적 정책 개선

n-step TD복습

n-step SARSA

SARSA(람다)

'인공지능 > Reinforce_Learning' 카테고리의 다른 글

'인공지능/Reinforce_Learning'의 다른글

티스토리툴바

[PART2] CH04. SARSA TD 기법을 활용한 최적정책 찾기

TD 복습

SARSA : TD(0)를 활용한 행동 가치 함수 Q파이 추산

SARSA 의사 코드

SARSA control : SARSA policy evaluation + e-탐욕적 정책 개선

n-step TD복습

n-step SARSA

SARSA(람다)

'인공지능 > Reinforce_Learning' 카테고리의 다른 글

'인공지능/Reinforce_Learning'의 다른글

관련글

티스토리툴바