Skip to content

hellonlp/sentence-similarity

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Sentence Similarity: 句子相似度



一、数据集

下面的数据集都是中文的。

Data size(train) size(valid) size(test)
ATEC 62477 20000 20000
BQ 100000 10000 10000
LCQMC 238766 8802 12500
PAWSX 49401 2000 2000
STS-B 5231 1458 1361
SNLI 146828 2699 2618
MNLI 122547 2932 2397

训练集: SNLI 和 MNLI
测试集: ATEC、BQ、LCQMC、PAWSX 和 STS-B


二、模型

考虑到有些数据集的 test 集较小,可能会导致评估准确性偏差较大,所以这里的评估数据同时使用了train、valid和test,且最终评估结果采用了加权平均(w-avg)的方法得到。

基于RoBERTa Base 版本

这里使用相同的语言模型RoBERTa Base

Model STS-B ATEC BQ LCQMC PAWSX Avg.
BERT-Whitening 65.27 - - - - -
SimBERT 70.01 - - - - -
SBERT-Whitening 71.75 - - - - -
BAAI/bge-base-zh - - - - 78.61 -
hellonlp/simcse-base-zh 80.96 - - - - -
hellonlp/promcse-base-zh 81.57 - - - - -

基于RoBERTa Large 版本

这里使用相同的语言模型RoBERTa Large

Model STS-B(w-avg) ATEC BQ LCQMC PAWSX Avg.
BAAI/bge-large-zh 78.61 - - - - -
BAAI/bge-large-zh-v1.5 79.07 - - - - -
hellonlp/simcse-large-zh 81.32 - - - - -
hellonlp/promcse-large-zh 81.63 - - - - -

三、参考

RAG 之 Embedding 效果对比
文本语义相似度 | PromCSE 实战
文本语义相似度 | SimCSE 实战
文本语义相似度 | Sentence BERT 实战
文本语义相似度 | BERT Whitening 实战

About

文本相似度,语义向量,文本向量,text-similarity,similarity, sentence-similarity,BERT,SimCSE,BERT-Whitening,Sentence-BERT, PromCSE, SBERT

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages