인공지능 29

[PART2] CH05. Off-policy MC control

복습 강화학습 문제는 MDP로 정의된다. 마르코프 결정과정에서 최적 가치함수, 최적 정책을 구하는것이 목적. 최적 가치, 정책을 얻기 위해서 DP / MC,TD (환경을 알 때 / 모를 때) 정책 평가 : 주어진 정책의 가치함수를 계산하는 과정 정책 개선 : 우리가 알고있는 정책을 조금 더 나아지게 만드는 과정. 위 그림을 통해서 전반적인 교육과정 및 세부사항과 각 내용의 장단점, 특징을 이해하기. 지금까지 배운 강화학습 기법의 템플릿 정책 개선마다 새롭게 Q^pi_k를 추산하기 위해서 또 새롭게 샘플들을 모음. 좋은 특성은 아님. 새롭게 정책을 개선할 때 마다 환경과 interaction이 있어야하고 샘플링이 되야한다. 특히 시뮬레이션환경이 아니라 현실 환경이라면 그만큼 학습이 느려질 것임. 사람은 타..

[PART2] CH04. SARSA TD 기법을 활용한 최적정책 찾기

TD 복습 TD(n) : n-step까지의 Return + 이후의 가치 추산치 활용 SARSA : TD(0)를 활용한 행동 가치 함수 Q파이 추산 SARSA 의사 코드 임의의 policy에 대해서 가치를 추산하는 코드... sampling된 에피소드에 대해서 terminal state가 될때까지 반복한다. SARSA control : SARSA policy evaluation + e-탐욕적 정책 개선 GLIE조건을 만족시키면서 학습시키는건 어렵다. 현실적으로 좋은 성능을 보이지도 않음. n-step TD복습 n-step SARSA SARSA(람다) 람다는 파라미터고 람다가 1에 가까워질수록 분산이 커지고 편향이 낮아지고 람다가 0에 가까워질수록 분산이 작아지고 편향이 커진다.

[PART2] CH04. Monte Carlo 기법을 활용한 최적 정책 찾기

Generalized Policy Iteration(복습) 우리가 모델을 알고있다면 action을 당연히 고를 수 있겠지만 모델을 모르는 상황이라면 행동을 결정하기 힘들다. Exploitation : Greedy 한 선택 Exploration : 더 좋은 보상을 알아보기 위해서 비효율적일 수 있는 선택을 하는 탐험. e-Greedy policy 아래 그림 보는게 더 이해 잘된다. e-Greedy로 만들어지는 정책이 개선되는게 맞는가 ? 위 식은 증명 되어 있는건데, 그럼 아래에서 파란색을 임의의 Wi라고 했을 때 위 조건을 만속하면 부등호가 성립할 것. 자연스러우니 넘어가자. e-탐욕적 정책 개선을 하면 최적 정책으로 수렴할까 ? 아니다. e의 확률로 원하지 않는 행동을 해야하기 떄문. 1/k(에피소드 ..

[PART2] CH03. Temporal Difference (TD) 정책추정.

모델이 없는 상황에서 정책 추정하는 방법 2가지 몬테 카를로 : 어떤 함수의 평균값을 샘플을 통해서 추산할 수 있다. -> 가치함수 추정하는데 사용했음(샘플을 통해서 추정했음) DP와 MC 기법의 장단점 Temporal -difference는 둘을 섞은 알고리즘 Q-learning의 기초가 되는 알고리즘. Gt를 직접적으로 샘플을 통해서 얻어진 보상들을 감가하고 합하여 리턴의 추산치로 사용했음 TD에서는 return을 추산할 때 현재상태의 보상인 Rt+1과 감마만큼 감소한 다음상태의 가치함수를 사용하게 된다. MDP를 십분 활용한 것. MC기법 현재의 보상 ~ terminal MDP라고 가정하면 현재 이후는 V(St+1)로 대체 된다. V(s) 를 조정해서 TD target과 가까워 지게 만드는게 목적...

[파이썬 머신러닝 완벽가이드] 협업필터링

사용자 기반 ( 행 : 사용자 / 열 : 아이템 ) 아이템 기반 (행 : 아이템 / 열 : 사용자) 둘이 유사함. 일반적으로 사용자 기반 보다는 아이템 기반 방식이 더 선호된다. 단순히 비슷한 상품을 샀다고 해서 유사한 사람이라고 판단하기 어렵기 때문. 유사도를 구했으면, 이전 영화 평점처럼 가중치를 부여할 수 있다. (각각의 아이템간 유사도 * 평점) / 정규화값

[파이썬 머신러닝 완벽가이드] 추천시스템 - 콘텐츠기반

코드올리는거 여전히 이상하네 왜이렇지 ㅠㅠ 코사인 유사도 ?? 유튜브에서 찾아보자. 1.코사인 유사도별로 정렬을 하니 vote_average가 낮은것들도 유사도가 높다고 나온다. vote_average도 포함시켜서 추출해보자 2.아까보다야 좋아졌지만 한표받고 평균 10점받은 영화는 거르고 싶다. 3.유사도도 높고 투표도 잘 받은(평점 좋은) 영화를 추출해보자. 아래와 같은 가중 평점을 이용하여 새로운 칼럼을 만들어 추출할 수 있다. 위 식에서 m 값보다 v가 낮으면 개별 평점이 좋더라도 수가 굉장히 작아지고 (ex v = 10, m = 300 ) m값보다 v가 높아야만 봐줄만한 값이 된다 (ex v = 1000, m = 300 ) 두번째 항에서 평균평점이 높은 사이트가 있을거고 짜게주는 사이트도 있을 것..