1. Introduction

<aside> 💡 BERT: Pre-trainig of Deep Bidirectional Transformers for Language Understanding

</aside>

1-1. Pre-Training의 종류

1-2 BERT의 Pre-training 방식

스크린샷 2022-03-07 오후 12.55.51.png

1-2-1. 기존 방법론

1-2-2 Masked Language Model(MLM)

: 랜덤하게 몇개의 token을 mask 시킨 후, 이를 Transformer 구조에 넣어서 주변 단어의 context만 보고 mask된 단어를 예측함