Data Handling 13

Pandas로 하는 시계열 데이터분석 (1)

시계열데이터에 관심이 생겨서 보게됐다. 시계열 데이터는 시간 데이터를 인덱스로 하는 연속된 데이터 보통 시간이 String으로 되어있을 경우가 많은데 DateTime 인덱스로 처리하는게 더 강력하다. Time Resampling 자신에게 필요한 시간단위로 Resampling 하는것. groupby로 Resampling할 수도 있지만 Time Resampling이 더 유용하다. Time Shifting 데이터를 임의 시간마니큼 앞, 뒤로 이동시킬 수 있음 Rolling and Expanding 데이터에 노이즈가 포함될 수 있음. (데이터가 빠지거나 / 중복되거나 / outlier거나 등등) 이럴경우 데이터의 트렌드를 구하기 위해서 뭉뚱그려 smoothing하는 경우가 있는데 rolling mean을 사용함..

[Pandas]read_csv UnicodeDecodeError

대략 아래와같이 문제가 발생했다. UnicodeDecodeError가 떴었고, 아래 블로그에서 encoding = 'CP949' 를 추가하래서 해결했다. train_info = pd.read_csv('./open_data/train.csv',encoding = 'CP949') [파이썬] read_csv 사용 시 'UnicodeDecodeError' 인코딩 오류 대처하기 파이썬으로 어느 CSV 파일을 불러오는 중인 어느 날...​요렇게 평상시처럼 파일을 읽어들이는데...df_t... blog.naver.com