[Time Series#4] 시계열 모형 (AR, MA, ARMA, ARIMA)
본 글에서는 여러가지 시계열 모형의 구성과 개념, 그리고 모델 선택 방법을 정리해보도록 하겠습니다.
정상 시계열 모형
AR(p) (Auto-Regressive Model)
자기회귀(AR) 모형은 현재의 관측값을 과거 시점의 값들로 설명하는 모델입니다.
- AR(1) (현재의 값이 1시점 이전의 값과 연관됨)
- AR(p) (일반화: 현재의 값이 p시점 이전의 값까지와 연관됨)
AR 모델은 다음과 같은 특징을 가집니다.
- 불확실 요소(impact 또는 innovation)는 정규분포를 따른다는 가정을 함
- 계수는 독립적인 상수가 아니라 데이터의 평균과 관련됨
- 모델의 정상성을 판단하려면 특성근(characteristic root)을 구해야 함.
- p=1일 때, 과거 1시점 이전의 값에 대한 계수의 절댓값이 1이하면 정상성 유지됨
이때, AR 모델의 분산은 다음과 같이 유도됩니다.
즉, 계수가 커질수록 시계열의 분산도 커지게 됩니다.
또한 자기상관성도 아래와 같은 방식으로 유도됩니다.
마찬가지로 자기상관성도 모델의 계수와 매우 depend하다는 것을 알 수 있습니다.
MA(q) (Moving Average Model)
이동평균(MA) 모형은 현재의 관측값을 과거 오차항으로 설명하는 모델입니다.
- MA(q) (일반화: 현재의 값이 q시점 이전의 오차항까지와 연관됨)
MA 모델은 다음과 같은 특징을 가집니다.
- 오차항에 대한 계수가 모두 유한하면 정상성을 만족
이때, MA 모델의 분산은 다음과 같이 유도됩니다.
또한 자기상관성도 아래와 같은 방식으로 유도됩니다.
※ l > q이면, 자기공분산이 0이 되므로 자기상관성도 0이 됩니다.
ARMA(p,q) (Auto-Regressive Moving Average Model)
AR과 MA를 결합한 모델
ARMA 모델은 다음과 같은 특징을 가집니다.
- 정상성 여부는 AR 부분의 특성근을 통해 판단
- AR 부분의 계수는 독립적 파라미터가 아님
- ARMA(p, 0) = AR(p), ARMA(0, q) = MA(q)
비정상 시계열 모형
ARIMA(p, d, q) (Auto-Regressive Integrated Moving Average Model)
비정상 시계열은 평균, 분산, 자기상관성이 시간에 따라 변화합니다. 이 경우 차분(differencing)을 통해 정상성 확보가 가능합니다.
- 1차 차분
- 2차 차분
- 3차 차분
d번의 차분을 통해 정상화가 가능한 시계열은 ARIMA(p, d, q) 형태로 모델링합니다.
※ 만일, 등분산성 조건이 맞지 않으면 Box-Cox 변환 등 추가적인 변환이 필요할 수 있습니다.
이때, ARIMA 모형은 차분된 시계열을 적용했기 때문에 예측값은 원래 스케일로 복원해줘야 합니다.
모형 결정 방법
ACF
자기상관함수를 통해 MA 모형의 차수를 결정할 수 있습니다.
백색잡음의 신뢰구간을 벗어나는 시점의 절단점(lag 수)가 q로 설정됩니다.
PACF
부분자기상관함수를 통해 AR 모형의 차수를 결정할 수 있습니다.
PACF는 ACF에서 중간 시점의 영향을 제거한 순수한 상관성을 반영합니다.
마찬가지로, 백색잡음의 신뢰구간을 벗어난 지점에서 차수를 결정합니다.
AIC (Akaike Information Criterion) , BIC (Bayesian Information Criterion)
ARIMA 또는 ARMA 모형의 최종 차수를 선택하기 위해 정보 기준(Information Criteria)을 사용합니다.
- AIC
- BIC
- K: 모델 파라미터 수
- : 시계열 길이
AIC와 BIC 값이 가장 작을 때 해당 모델이 최적이라고 판단합니다.
따라서, 다양한 (p, q) 조합에서 AIC/BIC를 비교해 최적 모형을 선택해야 합니다.