Sentence Similarity: 句子相似度

一、数据集

下面的数据集都是中文的。

Data	size(train)	size(valid)	size(test)
ATEC	62477	20000	20000
BQ	100000	10000	10000
LCQMC	238766	8802	12500
PAWSX	49401	2000	2000
STS-B	5231	1458	1361
SNLI	146828	2699	2618
MNLI	122547	2932	2397

训练集： SNLI 和 MNLI
测试集： ATEC、BQ、LCQMC、PAWSX 和 STS-B

二、模型

考虑到有些数据集的 test 集较小，可能会导致评估准确性偏差较大，所以这里的评估数据同时使用了train、valid和test，且最终评估结果采用了加权平均（w-avg）的方法得到。

基于RoBERTa Base 版本

这里使用相同的语言模型RoBERTa Base。

Model	STS-B	ATEC	BQ	LCQMC	PAWSX	Avg.
BERT-Whitening	65.27	-	-	-	-	-
SimBERT	70.01	-	-	-	-	-
SBERT-Whitening	71.75	-	-	-	-	-
BAAI/bge-base-zh	-	-	-	-	78.61	-
hellonlp/simcse-base-zh	80.96	-	-	-	-	-
hellonlp/promcse-base-zh	81.57	-	-	-	-	-

基于RoBERTa Large 版本

这里使用相同的语言模型RoBERTa Large。

Model	STS-B(w-avg)	ATEC	BQ	LCQMC	PAWSX	Avg.
BAAI/bge-large-zh	78.61	-	-	-	-	-
BAAI/bge-large-zh-v1.5	79.07	-	-	-	-	-
hellonlp/simcse-large-zh	81.32	-	-	-	-	-
hellonlp/promcse-large-zh	81.63	-	-	-	-	-

三、参考

RAG 之 Embedding 效果对比
 文本语义相似度 | PromCSE 实战
 文本语义相似度 | SimCSE 实战
 文本语义相似度 | Sentence BERT 实战
 文本语义相似度 | BERT Whitening 实战

Name		Name	Last commit message	Last commit date
Latest commit History 113 Commits
bert_flow		bert_flow
bert_whitening		bert_whitening
imgs		imgs
promcse		promcse
sentence_bert		sentence_bert
simcse		simcse
tfidf		tfidf
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bert_flow

bert_flow

bert_whitening

bert_whitening

imgs

imgs

promcse

promcse

sentence_bert

sentence_bert

simcse

simcse

tfidf

tfidf

.gitignore

.gitignore

README.md

README.md

Repository files navigation

Sentence Similarity: 句子相似度

一、数据集

二、模型

基于RoBERTa Base 版本

基于RoBERTa Large 版本

三、参考

About

Releases

Packages

Languages

hellonlp/sentence-similarity

Folders and files

Latest commit

History

Repository files navigation

Sentence Similarity: 句子相似度

一、数据集

二、模型

基于RoBERTa Base 版本

基于RoBERTa Large 版本

三、参考

About

Topics

Resources

Stars

Watchers

Forks

Languages