PaLM(Pathways Language Model)
540B parameters를 학습시킨 few-shot learning , Transformer Language Model
“Pathways”를 활용하여 6144 TPU v4 chips 사용
→ multiple TPU pods를 활용하는 새로운 ML system
위 모델은 다양한 tasks에서 높은 성능을 보임
multi-step reasoning tasks에서 fine-tuning SOTA를 제치고 outperform
BIG-bench benchmark에서 average human performance를 outperform
→ 특히 몇몇 tasks에서 discontinuous improvements를 보임
multilingual tasks, source code generation에도 높은 성능을 보임
bias, toxicity에 대한 comprehensive analysis도 제공
ethical consideration에 대한 내용도 포함
최근 모델들
위 모델의 한계점
model fine-tuning을 위해 상당한 양의 task-specific training examples를 필요로 함
task에 맞게 fitting 하는 과정에서 model parameter update가 필요함 → model finetuning & deployment에 complexity를 더함
GPT-3 Model
few-shot predictions을 사용한 extremely large Autoregressive LMs
→ decoder-only Transformer architecture & standard left-to-right LM objective
→ BERT, T5 의 한계 해결
Post-GPT3 Model (GLaM, Gopher, Chinchilla, Megatron-Turing NLG, LaMDA)
: 모두 GPT-3 model과 마찬가지로 Transformer Architecture
GPT-3 대비 4가지 improvements
Scaling the size
increasing the number of tokens
training on cleaner datasets
increasing model capacity
PaLM