1. Abstract

2. Model Architecture of Transformer

image.png

We are going to start from inputs and explore all the components until the output prediction!

in terms of training order

2.1. Embeddings

2.1.1. Tokenization

image.png

text input을 pre-define된 token으로 분리함

token은 단어 혹은 단어의 일부(sub-word)를 말한다.

뒤의 Results에 나오는데