Time-Series

[Time Series#1] 시계열 분석이란?

j.d 2025. 4. 21. 17:45

시간 흐름에 따라 변하는 데이터를 다루는 시계열 분석은 주가, 날씨, 에너지 소비 등 다양한 분야에서 중요한 역할을 합니다.

 

이번 글에서는 시계열 분석과 예측의 핵심 개념들을 정리해보겠습니다.

 

 

시계열(Time Series)이란?

시계열은 시간의 흐름에 따라 측정된 숫자형 데이터를 의미합니다.

특정 시간 단위로 정렬된 이 데이터는 보통 과거의 값들과 일정한 패턴이나 관계를 갖고 있기 때문에, 이를 분석하면 미래의 값을 어느 정도 예측할 수 있습니다.

출처: https://ermlab.com/en/blog/data-science/pandas-weather-data-visualization-tutorial/

 

시계열 예시

 

  • 하루 동안의 기온 변화
  • 한 달 동안의 가계 지출 내역
  • 매일 특정 키워드로 검색된 검색량
  • 시간대별 인터넷 트래픽
  • 주간 헬스장 이용자 수 변화

 

시계열 예측(Forecasting)이란?

시계열 예측은 과거의 데이터를 바탕으로 미래 값을 추정하는 작업입니다.

하지만 모든 시계열이 예측 가능한 것은 아니며, 다음과 같은 조건을 충족해야 어느 정도 신뢰할 수 있는 예측이 가능합니다.

 

  • 해당 시계열에 영향을 주는 요인을 충분히 파악하고 있는가?
  • 데이터의 양이 충분한가?
  • 과거의 패턴이 미래에도 유지된다고 가정할 수 있는가?
  • 우리의 예측이나 행동이 그 시계열에 영향을 주는 구조인가?

예를 들어, 일일 온도 데이터는 예측하기 쉽지만, 개인의 감정 변화나 트위터 트렌드처럼 외부 변수가 많고 급격하게 변화하는 시계열은 예측이 훨씬 어렵습니다.

 

 

시계열 예측 모델의 유형

시계열 예측을 위한 모델은 주로 다음과 같이 분류됩니다.

  1. 외부 설명 변수를 사용하는 모델
    • 날씨, 요일, 이벤트 등의 외부 요인을 함께 고려
    • 예: 온도와 습도를 이용해 전력 사용량을 예측
  2. 과거의 시계열 값만 사용하는 모델
    • 데이터 자체의 패턴만을 기반으로 예측
    • 예: ARIMA, Exponential Smoothing 등
  3. 외부 변수와 과거 값을 함께 사용하는 혼합형 모델
    • 보다 복잡한 환경을 반영할 수 있음

 

성능 평가 시 주의 사항

Out-of-sample

모델의 일반화 성능을 확인하기 위해, 데이터를 학습용과 평가용으로 나누고 미래 데이터를 따로 테스트합니다. 

출처: https://medium.com/data-science/time-series-from-scratch-train-test-splits-and-evaluation-metrics-4fd654de1b37

 

 

잔차 분석

잔차(residual)는 실제값과 예측값의 차이이며, 좋은 예측 모델일수록 다음 조건을 만족해야 합니다:

  • 잔차 사이에 자기상관이 없어야 합니다. (백색 잡음 형태)
  • 평균이 0이고 분산이 일정해야 합니다.
  • 잔차가 정규분포를 따르는지 확인해야 합니다.

출처: https://dziganto.github.io/python/time%20series/Introduction-to-Time-Series/