AbstractA new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Transformer 모델의 주요 특징전적으로 attention mechanism에 기반한 새로운 network architecture기존 모델들의 recurrence와 convolution layer를 완전히 대체실험 결과 및 성능두 가지 machine translation task에서 우수한 성능 입증높은 parallelization 능력기존 모델 대비 훨씬 짧은 training time 소요구체적인 성과WMT 2014 English..