Abstract

1. Introduction

SBERT: siamese & triplet networks 활용한 modification of the BERT network

→ BERT로 semantic search를 통해 large-scale semantic similarity comparison, clustering, information retrieval 가능

BERT

→ 하지만, 이는 너무 많은 조합 때문에 pair regression task에 부적합

e.g.1. if n=10000, 10000C2 = 49,995,000 개의 computation을 필요로 함 → V100 GPU로 65시간 걸림

e.g. 2. 40 million questions에서 가장 비슷한 question을 찾는 건 거의 50시간이 걸림

→ 시간이 매우 오래걸리기 때문에 CLS Token과 같이 fixed embedding을 사용하면 이는 문장임베딩의 성능이 오히려 나빠짐

SBERT

e.g.1. BERT 65 hours인 반면 SBERT는 5secs 걸림

e.g.2. BERT는 50시간인 반면 SBERT는 few milliseconds