BERT의 문제점
STS task에서 문장이 같은 네트워크에 들어가기 때문에 massive computational overhead 발생
→ BERT : Semantic Search나 unsupervised tasks에 적합하지 않음
Sentence-BERT(SBERT)
SBERT: siamese & triplet networks 활용한 modification of the BERT network
→ BERT로 semantic search를 통해 large-scale semantic similarity comparison, clustering, information retrieval 가능
BERT
→ 하지만, 이는 너무 많은 조합 때문에 pair regression task에 부적합
e.g.1. if n=10000, 10000C2 = 49,995,000 개의 computation을 필요로 함 → V100 GPU로 65시간 걸림
e.g. 2. 40 million questions에서 가장 비슷한 question을 찾는 건 거의 50시간이 걸림
→ 시간이 매우 오래걸리기 때문에 CLS
Token과 같이 fixed embedding을 사용하면 이는 문장임베딩의 성능이 오히려 나빠짐
SBERT
e.g.1. BERT 65 hours인 반면 SBERT는 5secs 걸림
e.g.2. BERT는 50시간인 반면 SBERT는 few milliseconds