Abstract
- XLNet : GPT로 대표되는 auto-regressive(AR) 모델 + BERT로 대표되는 auto-encoder(AE) 모델의 장점만을 합한 generalized AR pretraining model
- 이를 위해 permutation language modeling objective를 제안
- 위 방법론을 transformer 구조에 적용하기 위해 two-stream attention mechanism을 제안
- Transformer는 Transformer-XL에서 사용한 relative positioning encoding와 segment recurrence 사용
- 다양한 NLP 테스크에서 SOTA의 성능을 보임
1. Introduction
1-1 Autoregressive(AR)
- 일반적인 Language Model(LM) 학습 방법 : 이전 token으로 다음 token 예측
e.g. ELMo, GPT, RNNLM
LM의 objective 수식
<aside>
💡 $input\ sequence : x= (x_1, x_2, ..., x_n)$
$forward\ likelihood : p(x) = \sum_{t=1}^T\ p(x_t|x_{<t})$
$training\ objective(forward) : max_θ \ log\ p_θ(x)= max_θ \sum_{t=1}^T log\ p(x_t∣x_{<t})$
</aside>
Likelihood & objective
- 주어진 input sequence의 likelihood는 forward / backward 방향의 conditional probability들의 곱으로 나타냅니다.
- 모델은 이러한 conditional distribution을 objective로 학습
장단점
- AR은 방향성(forward, backward)이 정해져야 하므로, 한쪽 방향의 정보만을 이용 가능
- 양방향 문맥을 활용해 문장에 대해 깊이 이해하기 어려움 → • bidirectional context 정보가 필요할 때에는 적합하지 않음