1. Abstract
- 기존의 seq2seq 모델들은 RNN이나 CNN 기반이었음 → 순차적으로 하나하나 처리하기 때문에 병렬 처리가 어렵
- 이 논문은 Transformer라는 새로운 아키텍쳐를 제안함으로써 오직 attention mechanism에만 의존하고 recurrence 나 convolution을 완전히 배제함.
- 이로써 다음의 의의를 가짐
- 기존 SOTA 제침
- 높은 병렬성 → 훨씬 짧은 훈련 시간
- 순차적인 연산의 제거를 통해 훈련 시간이 혁신적으로 단축됨
- 더 적은 파라미터 사용
- 일반화 잘 됨
2. Model Architecture of Transformer

We are going to start from inputs and explore all the components until the output prediction!
in terms of training order
2.1. Embeddings
2.1.1. Tokenization

text input을 pre-define된 token으로 분리함
- e.g. “See that girl run” → see / that / girl / run
- see: ID 101
- that: ID 205
- girl: ID 310
- run: ID 415
token은 단어 혹은 단어의 일부(sub-word)를 말한다.
뒤의 Results에 나오는데
- 영어-독일어 번역 작업에서는 약 37,000개로 구분된 token 사용
- 영어-프랑스어 번역 작업에서는 32,000개로 구분된 token 사용