인공지능/Merchine_Learning 6

[파이썬 머신러닝 완벽가이드] 협업필터링

사용자 기반 ( 행 : 사용자 / 열 : 아이템 ) 아이템 기반 (행 : 아이템 / 열 : 사용자) 둘이 유사함. 일반적으로 사용자 기반 보다는 아이템 기반 방식이 더 선호된다. 단순히 비슷한 상품을 샀다고 해서 유사한 사람이라고 판단하기 어렵기 때문. 유사도를 구했으면, 이전 영화 평점처럼 가중치를 부여할 수 있다. (각각의 아이템간 유사도 * 평점) / 정규화값

[파이썬 머신러닝 완벽가이드] 추천시스템 - 콘텐츠기반

코드올리는거 여전히 이상하네 왜이렇지 ㅠㅠ 코사인 유사도 ?? 유튜브에서 찾아보자. 1.코사인 유사도별로 정렬을 하니 vote_average가 낮은것들도 유사도가 높다고 나온다. vote_average도 포함시켜서 추출해보자 2.아까보다야 좋아졌지만 한표받고 평균 10점받은 영화는 거르고 싶다. 3.유사도도 높고 투표도 잘 받은(평점 좋은) 영화를 추출해보자. 아래와 같은 가중 평점을 이용하여 새로운 칼럼을 만들어 추출할 수 있다. 위 식에서 m 값보다 v가 낮으면 개별 평점이 좋더라도 수가 굉장히 작아지고 (ex v = 10, m = 300 ) m값보다 v가 높아야만 봐줄만한 값이 된다 (ex v = 1000, m = 300 ) 두번째 항에서 평균평점이 높은 사이트가 있을거고 짜게주는 사이트도 있을 것..

[파이썬 머신러닝 완벽가이드] Ch4. Practice 산탄데르 고객 만족 예측

In [14]: from IPython.core.display import display, HTML display(HTML("")) 산탄데르 고객 만족 예측¶데이터 링크 https://www.kaggle.com/c/santander-customer-satisfaction/data data preprocessing¶ In [ ]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib cust_df = pd.read_csv("./santander-customer-satisfaction/train_santander.csv") print('dataset shape : ', cust_df.sha..

[파이썬 머신러닝 완벽가이드] Ch.5 Regression

In [64]: from IPython.core.display import display, HTML display(HTML("")) 회귀¶ 예측을 해야하는 부분이라서 기업에서 가장많이 활용 됨. 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 여러개의 독립변수와 한개의 종속변수간의 상관관계를 모델링 하는 기법을 통칭 방개수 + 아파트크기 + 주변학군 + 근처 지하철 역 갯수 (독립변수) = 아파트 가격(종속변수) feature : 독립변수 , Target : 종속변수 회귀계수(Regression coefficients) : 독립변수의 값에 영향을 미치는 회귀 계수 머신러닝 회귀예측의 핵심 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것 선형..

[파이썬 머신러닝 완벽가이드] Ch4. Classification

분류 개요와 결정트리 소개¶정보 균일도 측정 방법¶ 엔트로피 : 데이터 집합의 혼잡도. 다른값 섞이면 엔트로피 높음. 같으면 낮음. 정보 이득 지수 : 1-엔트로피 지수. 데이터 혼잡도가 낮으면 1-엔트로피는 높은값을 가짐. 즉 혼잡도가 낮을수록 높은 지수를 가진다. 정보이득 지수가 높은 속성을 기준으로 분할 지니계수 : 데이터가 다양한 값을 가질수록 평등하며 특정값으로 쏠릴 경우에는 불평등. 불평등할수록 1값 즉, 지니계수가 높은 속성을 기준으로 분할(혼잡도 낮음) 결정트리의 특징¶ 장점 : 쉽고 직관적임, 피처스케일링이나 정규화 등의 사전 데이터 가공 영향도가 적음. 단점 : 과적합으로 알고리즘 성능 저하(recursive하게 계속 파고들어서) -> 사전에 트리의 크기 제한하는 튜닝 필요. 결정트리 ..