[SpanBERT : Improving Pretraining by Representing and Predicting Spans]

1. Introduction

[BERT]

[SpanBERT]

*BERT 설명 생략

BERT

2. Model

BERT와 3가지 점이 달라짐

2.1 Span Masking

(1) 각 반복마다 geometric distribution  $ℓ∼Geo(p)$를 통해 span length를 샘플링

→ 이 분포는 더 짧은 스팬으로 편향된다.(skewed)

(2) 이후 span의 시작점을 random하게 선택