728x90
SMALL
Abstract
Experimental results on nine real-life datasets show that LTSF-Linear surprisingly outperforms existing sophisticated Transformer-based LTSF models in all cases, and often by a large margin.
연구 배경
- 최근 Transformer 기반 solution들이 장기 시계열 예측(LTSF) task에서 성능 향상 입증
- 본 논문은 이런 Transformer 기반 연구 방향의 타당성에 대한 의문 제기
Transformer의 한계점
- Transformer는 긴 시퀀스에서 의미론적 상관관계를 추출하는 데 효과적
- But! 시계열 모델링에서는 연속적인 점들의 집합에서 시간적 관계를 추출하는 것이 중요
- Positional encoding과 sub-series embedding을 사용하여 일부 순서 정보를 보존하지만, self-attention의 permutation-invariant으로 인해 시간 정보 손실이 불가피
이를 대안할 단순한 모델
- 단순한 one-layer linear 모델 세트(LTSF-Linear) 제안
- 9개의 실제 데이터셋에서 기존 Transformer 기반 LTSF 모델들과 비교 실험 수행
실험 결과
- LTSF-Linear가 모든 경우에서 기존 Transformer 기반 모델들을 능가
- 많은 경우 20%~50%의 큰 성능 차이 발생
향후 분석
- 기존 Transformer 기반 모델들의 시간적 관계 추출 능력에 대한 포괄적인 타당성 연구 수행
- 다양한 설계 요소들이 모델의 시간적 관계 추출 능력에 미치는 영향 탐구
Introduction
시계열 예측의 중요성
- 데이터 중심으로 돌아가는 현대 사회에서 시계열 데이터의 보편성
- 교통 흐름 추정, 에너지 관리, 금융 투자 등 다양한 응용 분야
시계열 예측 방법의 진화
- 전통적 통계 방법(e.g. ARIMA)에서 ML 기법(e.g. GBRT)으로 발전
- 최근 딥러닝 기반 solution(e.g. RNN, TCN)의 등장
- NLP, 음성 인식, 컴퓨터 비전 등 다양한 분야에서 Transformer의 탁월한 성능
- 시계열 분석, 특히 장기 시계열 예측(LTSF)에 Transformer 적용 시도 증가
Transformer 기반 LTSF 모델의 한계
- Self-attention의 permutation-invariant으로 인한 시간 정보 손실
- 시계열 데이터의 특성(의미론적 정보 부족, 순서의 중요성)과 Transformer 구조의 불일치
Preliminaries: TSF Problem Formulation
시계열 예측 문제 정의
- 입력: C개의 변수를 포함하는 시계열 데이터 (L은 look-back window size)
- 목표: 미래 T 시점의 값 예측
예측에 사용되는 2가지 전략
- Iterated Multi-Step(IMS) 예측
- 단일 step 예측기를 학습하고 반복적으로 적용하여 다중 step 예측 수행
- 자기회귀적 추정 절차로 인한 낮은 분산, 오차 누적 문제 존재
- Direct Multi-Step(DMS) 예측
- 다중 step 예측 목표를 한 번에 최적화
- 단일 step 예측기의 편향이 클 때 or T가 클 때 더 정확한 예측 가능
IMS vs DMS
- IMS는 정확한 단일 step 예측기가 있고 T가 상대적으로 작을 때 선호
- DMS는 편향되지 않은 단일 step 예측 모델을 얻기 어렵거나 T가 클 때 선호
Transformer-Based LTSF Solutions
Transformer의 LTSF 문제 적용 배경
- 장거리 의존성 포착 능력으로 인해 LTSF에 주로 적용
- 기존 Transformer의 한계인 자기회귀적 decoder의 오차 누적 문제와 시간 / 메모리 복잡도 문제
Transformer 기반 주요 LTSF 모델 4가지
- Informer (AAAI 2021 Best paper)
- Autoformer (NeurIPS 2021)
- Pyraformer (ICLR 2022 Oral)
- FEDformer (ICML 2022)
Transformer 기반 LTSF 모델의 4가지 설계 요소
- Time series decomposition
- 계절성-추세 분해를 통한 원시 데이터의 예측 가능성 향상
- e.g. Autoformer의 이동 평균 kernel을 이용한 추세-주기 성분 추출
- Input embedding strategies
- fixed positional encoding, 채널 투영 embedding, 학습 가능한 시간 embedding 등 사용
- 시간적 맥락 강화를 위한 다양한 embedding 기법 적용
- Self-attention schemes
- 계산 복잡도 감소를 위한 다양한 전략 도입
- e.g. LogTrans의 Logsparse mask, Informer의 ProbSparse self-attention
- Decoders
- Direct Multi-Step(DMS) 예측 전략 채택
- e.g. Informer의 생성형 decoder, Autoformer의 분해 기반 decoder
Transformer 기반 접근의 한계
While employing positional encoding and using tokens to embed sub-series facilitate preserving some ordering information, the nature of the permutation-invariant self-attention mechanism inevitably results in temporal information loss.
An Embarrassingly Simple Baseline
연구 계기
- 기존 Transformer 기반 LTSF solutions의 성능 향상이 DMS 전략 때문일 것이라는 가설
- 단순 DMS 모델과의 비교를 통한 검증 필요성
LTSF-Linear
- 가장 단순한 형태의 DMS 모델
- 시간축을 따라 하나의 선형 층을 사용하여 과거 시계열을 미래 예측으로 직접 회귀
위 모델의 특징
- 변수 간 가중치 공유
- 공간적 상관관계를 모델링하지 않음
위 모델의 간단한 변형
- DLinear
- Autoformer와 FEDformer에서 사용된 분해 기법 적용
- 원시 데이터를 추세 성분과 계절성 성분으로 분해
- 각 성분에 별도의 선형 층 적용 후 결과 합산
- NLinear
- 데이터셋의 분포 이동 문제 해결을 위한 설계
- 입력 시퀀스의 마지막 값을 빼고 선형 층 적용 후 다시 더하는 방식
- 간단한 정규화 효과
Experiments
Experimental Settings
- Dataset
- 널리 사용되는 9가지 실제 dataset 활용
- ETT(Electricity Transformer Temperature): ETTh1, ETTh2, ETTm1, ETTm2
- Traffic, Electricity, Weather, ILI, Exchange-Rate
- 모두 다변량 시계열 데이터
- 평가 지표
- 비교 대상 모델
- 최신 Transformer 기반 모델
- FEDformer
- Autoformer
- Informer
- Pyraformer
- LogTrans
- 단순 기준 모델 (Closest Repeat)
- look-back window의 마지막 값을 반복하는 naive한 DMS 방법
- 최신 Transformer 기반 모델
Comparison with Transformers
- 정량적 결과
- 9개 벤치마크에서 모든 언급된 Transformer 모델들과 광범위한 평가 수행
- LTSF-Linear가 대부분의 경우에서 최신 FEDformer를 20%~50% 성능 향상으로 능가
- LTSF-Linear는 변수 간 상관관계를 모델링하지 않음에도 불구하고 우수한 성능 달성
- NLinear와 DLinear는 각각 분포 이동과 추세-계절성 특성을 처리하는 데 우수성 보임
- 정성적 결과
- Transformer 기반 모델들이 Electricity와 ETTh2에서 미래 데이터의 스케일과 편향을 포착하지 못함
- Exchange-Rate와 같은 비주기적 데이터에서 적절한 추세 예측 실패
- 특이 사항
- FEDformer가 ETTh1에서 경쟁력 있는 예측 정확도 달성
- 주파수 처리와 같은 고전적 시계열 분석 기법 사용으로 인한 이점
- Exchange-Rate dataset에서 단순한 Repeat 방법이 모든 Transformer 기반 방법들을 약 45% 능가
- Transformer 기반 solution들이 훈련 데이터의 갑작스런 noize에 과적합되어 발생한 현상
- FEDformer가 ETTh1에서 경쟁력 있는 예측 정확도 달성
More Analyses on LTSF-Transformers
- Can existing LTSF-Transformers extract temporal relations well from longer input sequences?
- Experiment: 다양한 look-back window 크기(24, 48, ..., 720)로 장기 예측(T=720) 수행
- Results
- 기존 Transformer 기반 모델들의 성능은 look-back window 크기 증가에 따라 악화 또는 정체
- LTSF-Linear 모델들은 look-back window 크기 증가에 따라 성능이 크게 향상
- Implication: Transformer 기반 모델들은 긴 시퀀스에서 시간적 정보를 추출하지 못하고 noize에 과적합되는 경향
- What can be learned for long-term forecasting?
- Experiment: 동일한 미래 720시간 step에 대해 서로 다른 look-back window의 데이터로 예측
- Results: Transformer 모델들의 성능이 약간 감소
- Implication: 모델들이 인접한 시계열 sequence에서 유사한 시간적 정보만 포착
- Are the self-attention scheme effective for LTSF?
- Experiment: Informer를 점진적으로 Linear 모델로 변환
- Results: Informer의 성능이 단순화될수록 향상
- Implication: Self-attention 구조와 다른 복잡한 모듈들이 LTSF 벤치마크에서 불필요할 수 있음
- Can existing LTSF-Transformers preserve temporal order well?
- Experiment: 원시 입력 sequence를 무작위로 섞거나 반으로 나눠 교환
- Results
- Transformer 기반 모델들의 성능은 거의 변화 없음
- LTSF-Linear의 성능은 크게 저하
- Implication
- Transformer 기반 모델들은 시간적 순서 정보에 덜 민감하며, 시간적 관계를 효과적으로 모델링하지 못할 수 있음
- 반면에 LTSF-Linear는 시간적 순서에 더 의존적이며, 이는 시계열의 시간적 특성을 더 잘 포착할 수 있음을 나타냄.
- How effective are different embedding strategies?
- Experiment: 위치 및 timestemp embedding 제거
- Results: 모델에 따라 다양한 영향 관찰
- Implication: 일부 모델은 embedding에 크게 의존하지만, 다른 모델들은 덜 의존적
- Is training data size a limiting factor for existing LTSF-Transformers?
- Experiment: 전체 dataset과 축소된 dataset(1년)으로 학습
- Results: 축소된 데이터셋으로 학습한 모델이 오히려 더 나은 성능 보임
- Implication
- 축소된 데이터가 더 명확한 시간적 특성을 유지할 수 있음
- 더 긴 기간의 불완전한 데이터보다 완전한 1년 데이터가 더 유용할 수 있음
- 학습 데이터의 규모가 Autoformer와 FEDformer의 성능을 제한하는 요인이 아님을 시사
- Is efficiency really a top-level priority?
- Experiment: 실제 추론 시간 및 메모리 사용량 비교
- Results: 대부분의 Transformer 변형 모델들이 실제로는 유사하거나 더 많은 추론 시간과 parameters 소요
- Implication: 이론적인 복잡도 개선이 실제 효율성 향상으로 이어지지 않을 수 있음
Conclusion and Future Work
Conclusion
- Transformer의 시계열 모델링 능력에 대한 의문
- 적어도 기존 LTSF 벤치마크에서는 Transformer의 시간적 모델링 능력이 과대평가
- LTSF-Linear의 역할
- 더 나은 예측 정확도를 달성했지만, 단순히 향후 연구를 위한 간단한 기준선 역할
- 다른 LTSF 문제에 대한 향후 연구의 기준점으로 제시
- 시사점
- LTSF 문제에 대한 새로운 연구 방향 개척 기대
- 다른 시계열 분석 task에서도 Transformer 기반 solution의 유효성 재검토 권장
Future Work
- 모델 설계 개선
- LTSF-Linear는 모델 용량의 제한
- 단일 층 선형 네트워크로는 change points으로 인한 시간적 동적 특성 포착이 어려움
- 새로운 접근 방식
- 새로운 모델 설계, 데이터 처리 기법, 벤치마크 개발을 통한 LTSF 문제 해결 방안 모색
Index
Introduction
- ARIMA: AutoRegressive Integrated Moving Average, 전통적인 시계열 예측 모델
- GBRT: Gradient Boosting Regression Tree, ML 기반 예측 모델
- RNN: Recurrent Neural Network, 순환 신경망
- TCN: Temporal Convolutional Network, 시간적 합성곱 신경망
Preliminaries
- Look-back window size: 예측에 사용되는 과거 데이터의 길이
- IMS: 단일 step 예측을 반복하는 방식
- DMS: 여러 step을 한 번에 예측하는 방식
- 자기회귀적 추정: 이전 예측 결과를 다음 예측의 입력으로 사용하는 방식
Experiments
- MSE: 평균 제곱 오차, 예측값과 실제값 차이의 제곱 평균
- MAE: 평균 절대 오차, 예측값과 실제값 차이의 절대값 평균
- 다변량 시계열: 여러 변수의 시계열 데이터
Conclusion and Future Work
- Change points: 시계열 데이터에서 패턴이나 특성이 급격히 변하는 지점
728x90
LIST
'Paper Review > ML' 카테고리의 다른 글
[Attention] Attention Is All You Need (0) | 2024.07.17 |
---|