Data Handling/시계열데이터

Pandas로 하는 시계열 데이터분석 (4) [시계열 데이터 분석 기본 모델]

아네스 2021. 1. 1. 14:49
반응형

1. SImple Moving Average

Rolling mean 시켜서 하는거랑 다를바 없음

2. Weighted Moving Average

window가 길어지면 그만큼 앞의 missing data도 많아지고, Trend도 늦게 반영한다.

Moving Average라서 극단값을 쫓아가지 못한다.

샘플에다가 Weight를 주는데, 최근것에다가 크게 준다.

오래된 데이터일수록 사라져가게끔.

 

3. Simple Exponential Smoothing

F는 Forcast의 F, A는 Actual의 A

예측 Residual이 다들 크다. Trend와 Seasonality 반영도 안됨 

보완하는 방법으로 홀츠 Exponential Smoothing = 트랜드, Seasonality 반영


 

window size만큼 NaN값을 포함하게 된다.

그래프를 그려보면,

 

이번엔 Weighted Moving Average.

 

데이터 예측모델

1959까지를 Train데이터로 쓰고, 1960년 이후를 예측해 보자.

첫번째로 SimpleExpSmoothing,

트랜드도 반영안되고, Seasonality도 반영안된다.

 

두번째는 Holt's

트랜드는 반영하나 Seasonality는 반영 안된다.

 

세번째로 Holt-Winters

트랜드도 반영하고, Seasonality도 반영한다.

 

 

마지막으로 ARIMA

파라미터를 엄청 많이 줘야한다 ㅠ

그런데 이거를 Grid Search로 찾을거임.

 

결론 Winter-holt와 ARIMA는 쓸만해보인다.

반응형