Data Handling/시계열데이터 5

ARIMA 모델

ARIMA 모델 Autoregressive Integrated Moving Average는 개발된지 오래된 방법이지만 시계열 데이터 분석을 위해 이해해야 하는 중요한 모델링 또는 예측 기법이다. 여기 나오는 개념들을 이해하는것이 좋다. Stationary vs Non-stationary time series Seasonal vs Non-seasonal ARIMA Autoregressive - AR(p) Integrated - I(d) Moving Average - MA(q) Stationary 데이터 특성 - 연속되는 숫자들의 평균 / 분산 / 공분산이 시간에 따라서 변하지 않으면 Stationary하다고 한다. ARIMA 모델이 효과적으로 적용이 되려면 Data가 Stationary 특성을 보여야한다...

Pandas로 하는 시계열 데이터분석 (4) [시계열 데이터 분석 기본 모델]

1. SImple Moving Average Rolling mean 시켜서 하는거랑 다를바 없음 2. Weighted Moving Average window가 길어지면 그만큼 앞의 missing data도 많아지고, Trend도 늦게 반영한다. Moving Average라서 극단값을 쫓아가지 못한다. 샘플에다가 Weight를 주는데, 최근것에다가 크게 준다. 오래된 데이터일수록 사라져가게끔. 3. Simple Exponential Smoothing F는 Forcast의 F, A는 Actual의 A 예측 Residual이 다들 크다. Trend와 Seasonality 반영도 안됨 보완하는 방법으로 홀츠 Exponential Smoothing = 트랜드, Seasonality 반영 window size만큼 ..

Pandas로 하는 시계열 데이터분석 (3) [시계열 데이터 특성 및 ETS모델이해]

시계열 데이터 특성 : Level + Trend + Seasonality + Noise (Error) - Level은 Decomposition이 불가능해서 Noise에 속한다. Trends Seasonality : 반복되는 트렌드 Cyclical : 일정하지 않은 기간의 트렌드 +Noise ETS모델 : 데이터의 패턴을 더 잘 파악하기 위해서 또는 예측을 수행하기 위해 Smoothing을 한다. Smoothing을 위해서 Error, Trend, Seasonality 요소들을 활용하는데, 각각을 더하거나 곱하여 Smoothing을 한다. 이것들을 가지고 시계열 데이터를 모델링 할 수 있다. ETS Decomposition : ETS 컴포넌트들을 시각화 하는 것은 데이터의 흐름을 이해하는데 큰 도움이 된다..

Pandas로 하는 시계열 데이터분석 (2) [TimeZone, Visualize]

TimeZone localize로 설정한 것과 replace로 tzinfo를 바꾼것에서 시간차이가 나니 localize를 써서 바꾸자. 그 시간에 맞게끔 timezone 을 바꾸면서 datetime도 같이 조정해 주고싶다면 .astimezone으로 바꾸면 된다. 둘이 2018-12-31 15:00 과 2019-1-1 00:00 이 같다고 나옴. timezone이 다른것을 보정해서 bool 연산을 해준다.(신기하네) 최근 금요일을 구하는데, timedelta로 더하는게 위와같은 오류(주석)를 없애준다. DataFrame의 시각화 Apple 주식의 Volume과 Adj Close를 가져와서 그려보면 둘간의 scale차이떄문에 Adj Close가 Constant처럼 보인다. 하지만 분명히 변동성을 가지고있음...

Pandas로 하는 시계열 데이터분석 (1)

시계열데이터에 관심이 생겨서 보게됐다. 시계열 데이터는 시간 데이터를 인덱스로 하는 연속된 데이터 보통 시간이 String으로 되어있을 경우가 많은데 DateTime 인덱스로 처리하는게 더 강력하다. Time Resampling 자신에게 필요한 시간단위로 Resampling 하는것. groupby로 Resampling할 수도 있지만 Time Resampling이 더 유용하다. Time Shifting 데이터를 임의 시간마니큼 앞, 뒤로 이동시킬 수 있음 Rolling and Expanding 데이터에 노이즈가 포함될 수 있음. (데이터가 빠지거나 / 중복되거나 / outlier거나 등등) 이럴경우 데이터의 트렌드를 구하기 위해서 뭉뚱그려 smoothing하는 경우가 있는데 rolling mean을 사용함..