1. Abstract

기존의 seq2seq 모델들은 RNN이나 CNN 기반이었음 → 순차적으로 하나하나 처리하기 때문에 병렬 처리가 어렵
이 논문은 Transformer라는 새로운 아키텍쳐를 제안함으로써 오직 attention mechanism에만 의존하고 recurrence 나 convolution을 완전히 배제함.
이로써 다음의 의의를 가짐
- 기존 SOTA 제침
- 높은 병렬성 → 훨씬 짧은 훈련 시간
  - 순차적인 연산의 제거를 통해 훈련 시간이 혁신적으로 단축됨
- 더 적은 파라미터 사용
- 일반화 잘 됨

2. Model Architecture of Transformer

We are going to start from inputs and explore all the components until the output prediction!

in terms of training order

text input을 pre-define된 token으로 분리함

e.g. “See that girl run” → see / that / girl / run
- see: ID 101
- that: ID 205
- girl: ID 310
- run: ID 415

token은 단어 혹은 단어의 일부(sub-word)를 말한다.

뒤의 Results에 나오는데