Abstract

PaLM(Pathways Language Model)

1. Introduction

최근 모델들

위 모델의 한계점

  1. model fine-tuning을 위해 상당한 양의 task-specific training examples를 필요로 함

  2. task에 맞게 fitting 하는 과정에서 model parameter update가 필요함 → model finetuning & deployment에 complexity를 더함

GPT-3 Model

Post-GPT3 Model (GLaM, Gopher, Chinchilla, Megatron-Turing NLG, LaMDA)

: 모두 GPT-3 model과 마찬가지로 Transformer Architecture

GPT-3 대비 4가지 improvements

  1. Scaling the size

  2. increasing the number of tokens

  3. training on cleaner datasets

  4. increasing model capacity

PaLM