안녕하세요. 리주연입니다.
오늘은 최근 공부하고 있던 시계열 분석 중 시계열 분해 성분에 대해 정리해보려 합니다.
시계열 분석에서 시계열 분해라는 개념은 빠지지 않고 등장하는데요. 대부분의 강의나 관련 자료에서는 python이나 R에 있는 function을 활용하는 방법만 알려줄 뿐, 논리적인 개념에 대해 명확히 이해하기가 어려웠습니다. 시계열 분해 중 우선 시계열 분해 성분에 대해 이해한 바를 정리해보겠습니다.
시계열 분해(Time-series Decomposition)란?
시계열 분해는 시계열을 여러 개의 구성 요소로 분해하는 통계적인 방법을 말합니다. 시계열 분해에서 시계열 데이터는 체계적 성분과 불규칙적인 성분으로 이루어졌다고 가정하며, 이를 분리하여 시계열 데이터를 분석하고 예측하는 것이 시계열 분해의 목적이라고 합니다. 이때, 체계적인 성분은 추세 성분, 계절 성분, 순환 성분(주기)이 포함되며, 이러한 성분으로 시계열 데이터를 분해하면 데이터의 장기적 추이를 분석하고, 불규칙 성분이 발생한 시점을 찾는 데에 활용할 수 있습니다.
추세(Trend, Tt)
데이터가 장기적으로 증가하거나 하락한다면, 추세가 있다고 말할 수 있습니다. 이때, 추세는 꼭 선형적이지 않아도 됩니다. 장기 투자자의 관점에서 주식 차트를 볼 때는 단기적인 상승/하락의 변동성보다는 해당 상품의 장기적인 추세가 상승세인지가 중요합니다. 이러한 장기적인 흐름을 추세라고 할 수 있습니다.
계절성(Seasonality, St)
계절성은 데이터에 명확하고 일정한 패턴을 말합니다. 매년 특정한 시기, 1주일, 특정 요일에 나타나는 패턴 등은 계절성 패턴입니다. 이 때 계절성은 항상 일정한 빈도로 나타납니다. 수온의 경우, 여름에 높고 겨울에 차가워서 연 단위의 계절성을 가집니다. 아래 그림과 같이 표층 수온의 경우, 1-3월에 낮고 6-10월에 높은 일정한 빈도, 크기의 계절성을 나타냅니다.
주기성(cycle, Ct)
순환 성분(Cyclic component)이라고도 불리는 주기성은 그 이름 때문에 계절성과 많이 혼동되지만, 둘은 많이 다르다고 합니다. 우선 주기성은 고정된 빈도가 아닌 형태로 증가하거나 감소하는 모습을 보일 때 나타납니다. 보통 주기성은 경제 상황 때문에 일어나 경기 순환과 관련있다고 합니다.
여기까지는 교과서적인 정의였고, mz 세대로서 이 주기성을 패션 유행 주기로 이해를 해보았습니다. 지금은 패션 암흑기라고도 불렸던 y2k 패션이 유행 중인데요. 2-3년 전까지만해도 90년대 패션이 유행했었습니다. 유행은 돌고 돈다, 패션 유행에도 주기가 있다고 하는데, 이와 같이 특정 년도, 특정 시기에 발생하는 것은 아니지만, 20년 정도를 주기로 하여 발생하는 패턴을 주기성이라고 생각해볼 수 있을 것 같습니다.
계절성과 주기성
계절성과 주기성은 패턴의 빈도, 길이, 변동성 측면에서 다릅니다. 계절성은 일정한 빈도로 나타나는 요동이고, 그 빈도가 변하지 않고 연중 어떤 시기와 연관됩니다. 이에 반해 주기성은 일정한 빈도로 나타나지 않으며, 일반적으로 계절성 패턴의 길이보다 길고, 계절성 패턴보다 변동성이 더 큰 경향이 있습니다.
불규칙 요인(Noise, It)
잡음(noise)라고도 불리는 불규칙 요인은, 위 세 가지의 체계적 성분(추세, 계절성, 주기)으로 설명할 수 없는 여러 복합적인 원인에 의한 변동입니다. 이는 예측 불허하고, 분해하려는 관심의 대상도 아닙니다. 시계열 자료는 기본적으로 체계적인 성분으로 설명되지만, 그 외 오차를 포함하고 있는데, 이러한 오차를 불규칙 요인이라 합니다.
시계열 분해 방법
시계열 데이터를 위와 같은 성분으로 분해하는 방법은 여러 종류가 있습니다.
- 이동 평균(moving average)
- 고전적인 분해법(가법 분해, 승법 분해)
- X11 분해
- SEATS 분해
- STL 분해
위와 같은 분해법에 대해서는 다음 포스팅을 통해 요약해보겠습니다.
처음 시계열 분해와 그 성분에 대해서 설명을 들었을 때만 해도, 음..개념은 대충 알겠는데, 그래서 뭐 어떡하라는 거지? 라는 생각이 들었는데, 이번 포스팅을 통해 다른 데이터와는 다르게 시간이라는 축이 밀접하게 관여하는 시계열 데이터를 더 잘 이해하고, 미래를 내다보기 위한 시도, 방법 중 하나였음을 알 수 있었습니다. 특히 주기와 계절성은 비슷한 것 같은데, 왜 둘을 분리하려고 하는지 잘 이해가 되지 않았는데, 경제 분야에서 과거의 경기 순환의 진폭과 기간을 파악하고 이를 통해 미래를 대비하기 위해 등장하였을 것이며, 이러한 이론이 시간과 관계 있는 다른 데이터(기온, 수온 등)와도 관련이 있을 수 있겠다..라는 숲의 시선으로 기술을 바라볼 수 있는 계기가 되었던 것 같습니다.
추후에도 시계열 데이터를 성분으로 분해하는 다른 방법에 대해서도 차근차근 공부하여, 방법의 등장 배경과 두드러진 차이가 무엇인지, 어떻게 적용할 수 있을지를 공부하여 정리해보겠습니다.
참고한 자료
- https://app.datacamp.com/learn
- https://otexts.com/fppkr/tspatterns.html
- https://developer-ellen.tistory.com/15
'수학 > 시계열 분석' 카테고리의 다른 글
[시계열분석] 시계열 분해 - 그래프를 성분으로 설명하는 방법 (1) | 2022.10.03 |
---|---|
[시계열] EEG database data set 소개 (알코올 중독 관련 EEG 데이터셋) (1) | 2022.09.25 |