Abstract
[Challenge]
: BERT와 같은 Pre-trained language representation 모델은 일반적으로 모델의 크기가 커지면 성능이 향상됨. 하지만, 모델이 커짐에 따라 다음의 문제가 발생
- Memory Limitation - 모델의 크기가 메모리량에 비해 큰 경우 학습시 OOM(Out-Of Memory) 발생
- Training Time - 학습하는데 오랜 시간이 소요됨
- Memory Degradation - Layer의 수 혹은 Hidden size가 너무 커지면 모델 성능 감소
[ALBERT의 목표]
: 모델의 경량화 - 모델 크기 증가를 막는 메모리 한계를 극복하기 위해
[Contribution]
-
Factorized Embedding Parameterization
- input layer를 분해하여 parameter 수를 줄임 → 모델 크기를 줄임
- 큰 단어 임베딩 행렬을 작은 두 행렬로 분해하고, 히든 레이어의 크기와 임베딩 크기를 각각 설정하도록 분리
-
Cross-Layer Parameter Sharing
- Transformer의 각 Layer 간 같은 Parameter를 공유하여 사용 → 모델의 크기를 줄임
- 파라미터가 네트워크 깊이의 증가에 따라 계속 커지는 것을 막기 위해 적용
-
Sentence-Order Prediction (SOP)
- BERT에서 사용하던 NSP 대신에 새로 적용하는 학습
- 문장 사이의 순서를 self-supervised loss 를 통해 학습시켜 문장간의 coherence(일관성)을 더 효율적으로 학습시키도록 한다.
→ NSP 보다 SQUAD, MNLI, RACE task에서 성능 향상
[Conclusion]
- GLUE, SQuAD, RACE Task에서 BERT 보다 더 높은 성능
Background
- BERT의 구조 이해가 선행되어야함
- BERT-base, BERT-large : large가 더 큰 모델이고 성능도 더 좋음
- 모델의 크기는 Layer 수와 각 Layer의 Hidden Unit의 수를 결정하는 Hidden Size에 의해 결정
- Language Representation 모델은 Layer 수, Hidden Size가 클 때 더 높은 성능
→ 모델의 크기가 커짐에 따라 발생하는 문제는 없을까?
1. Challenge
Language Representation 모델의 크기가 클 때 발생하는 문제점
대표적 문제
- 모델의 크기를 키웠을 때 메모리가 부족하다거나 학습 시간이 너무 오래 걸리는 문제