[Attention] Attention Is All You Need

[Time Series] Are Transformers Effective for Time Series Forecasting? (0)	2024.07.26

상단으로

Abstract

Transformer 모델의 주요 특징

실험 결과 및 성능

구체적인 성과

Introduction

기존 모델의 특징

구조적 주요 한계점

이들을 대체할 Transformer의 핵심

Background

기존 모델의 노력

이 노력의 한계

Self-attention의 활용

End-to-end memory networks

Transformer의 독창성

Model Architecture

전체적인 구조

Encoder-Decoder 상세 구조

Attention

Position-wise Feed-Forward Networks

Embeddings and Softmax

Positional Encoding

Why Self-Attention

계산 복잡도

Parallelization

Long-range dependency path length

Side benefit

Attention Visualizations

Training

Training 데이터와 Batch 구성

Hardware & Schedule

Optimizer

Regularization

Residual Dropout

Label Smoothing

Layer Normalization

Results

Machine Translation

Model Variations

English Constituency Parsing

Conclusion

향후 연구 방향

Index

Abstract

Introduction

Background

Model Architecture

Training

Results

Conclusion

'Paper Review > ML' 카테고리의 다른 글

티스토리툴바