1. Sequence model 의 한계 Transformer 모델은 recurrency와 convolution 을 배제한 attention 기반의 모델이다. 이는 sequence transduction 모델과 달리 병렬화가 가능하며 모델 훈련에 적은 시간이 소요된다는 특징이 있다. 이러한 sequence model 의 예시로 RNN, LSTM, GRU 가 주축으로 사용되는데 이는 순차적으로 입력값을 넣어주어야 하기 때문에 sequence 길이가 긴 인풋에 대해 메모리와 계산량에 부담이 생기는 문제가 있다. 2. Attention 설명 Attention 은 입력과 출력 sequence 의 거리에 무관하게 종속성을 모델링한다. 기존 모델은 recurrent network 와 attention 을 섞어 사용..