- LSTM
- CNN
https://www.kaggle.com/rethfro/1d-cnn-single-model-score-0-14-0-16-or-0-23
-
question(leak):
- tf: q1/q2/q1+q2
- tfidf: q1/q2/q1+q2
-
words(chars): 针对字符串计算
- 词数
- 词数差
- 重叠词数:
len(set(q1) & set(q2))
- 相同度(相异度 = 1 - 相同度): com / (q1 + q2 - com)每个状态分量根据目标设置最优权重
- simhash
- jaccard:
jaccard = lambda a, b: len(set(a).intersection(b))/(len(set(a).union(b))+0.)
- 对目标影响大的词(lstm状态差等)
- 编辑距离
- fuzz.QRatio
- fuzz.WRatio
- fuzz.partial_ratio
- fuzz.token_set_ratio
- fuzz.token_sort_ratio
- fuzz.partial_token_set_ratio
- fuzz.partial_token_sort_ratio
- ...
-
doc2num: 针对tf/tfidf/wordVectors等计算
- n-grams: 结合tf/tfidf使用
- gensim
- wmd
- norm_wmd(l2): norm_model.init_sims(replace=True)
- skew/kurtosis:
from scipy.stats import skew, kurtosis
- scipy.spatial.distance:
import braycurtis, canberra, cityblock, cosine, euclidean, jaccard, minkowski
- cosine(修正)
-
lda
-
bleu(机器翻译指标):对两个句子的共现词频率计算
torchtext