Large-Scale knowledge graphs(KG)
: FreeBase, YAGO, WordNet → semantic search, recommendation, QA 등 다양한 task에서 좋은 basis가 됨
KG의 구성
: multi-relational graph
: entities as nodes and relations as edges
→ 각 edge는 triplet으로 구성
triplet: (head entity, relation, tail entity)
e.g., (Steve Jobs, founded, Apple Inc.)
→ 하지만 모든 요소가 다 채워져 있는 것은 아니다 → KBC를 진행하자!
KBC 관련 research
KG-BERT
pre-trained language models
: ELMo, GPT, BERT, XLNet 등의 NLP에서 좋은 성과를 냄
→ 이중 BERT가 pre-training bi-directional Transformer encoder + MLM & NSP로 가장 prominent함
KG-BERT
방법론
entities, relations and triples를 textual sequence로 취급
KBC를 sequence classification 문제로 변환함
fine-tune BERT model on these sequences for predicting the plausibility of a triple or a relation
: tripe $(h, r, t)$ scoring function에 따라 translational distance model과 semantic matching model로 나뉘어짐
Translational distance model
: distance-based scoring function 사용 → $r$의 translation 이후, $h, t$ 사이의 거리를 계산