[ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS]
ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)
기존의 Masked Language Modeling(MLM)
ELECTRA
RTD Task를 통해 학습하기 위해 generator G와 discriminator D - 2개의 네트워크가 필요
둘 다 Transformer Encoder 구조
토큰 시퀀스 $x$를 입력받아 문맥정보를 반영한 벡터 시퀀스 $h(x)$로 매핑
$x = [x_1, ..., x_n] → h(x) = [h_1, ..., h_n]$