[SpanBERT : Improving Pretraining by Representing and Predicting Spans]
[BERT]
[SpanBERT]
span-level pre-training 방법
(1) 개별 token을 masking하지 않고 contiguous random span을 masking
(2) span boundary objective를 사용하여 boundary token을 이용해 masking된 전체 span을 예측
→ boundary token에 span-level 정보가 저장되어 있어 fine-tuning시에도 쉽게 접근
(3) NSP를 사용하지 않고 single segment 사용
→ BERT와 비교하여 다양한 downstream task에서 BERT를 능가하는 성능
*BERT 설명 생략
BERT와 3가지 점이 달라짐
(1) 각 반복마다 geometric distribution $ℓ∼Geo(p)$를 통해 span length를 샘플링
→ 이 분포는 더 짧은 스팬으로 편향된다.(skewed)
(2) 이후 span의 시작점을 random하게 선택