contents

[RoBERTa: A Robustly Optimized BERT Pretraining Approach]

1. 핵심 요약

RoBERTa = BERT의 Replication Study

[문제]

BERT는 아직 under-trained 되어 있음

[해결]

→ BERT에 여러 가지 tuning 진행

(1) training the model longer, with bigger batches, over more data

(2) NSP task 제거

(3) Training on longer sequences

(4) Dynamic Masking 적용

(5) Collect a large new dataset (CC-News)

[Results]

기존 BERT보다 우월한 성능
XLNet 등의 BERT 후속 모델 보다도 좋은 성능

[Contribution]

BERT Design Choice와 training 전략 등의 중요성을 보여줌
pre-training 시, 더 많은 dataset을 사용하는 것이 fine tuning 시 성능 향상에 큰 영향을 미침
MLM pre-training 시, 올바른 설계가 경쟁력 있다는 것을 보여줌

2. Background