Skip to content

Latest commit

 

History

History
53 lines (42 loc) · 1.5 KB

NlpFeats.md

File metadata and controls

53 lines (42 loc) · 1.5 KB

🚀 NlpFeats 👊


  • LSTM
  • CNN

https://www.kaggle.com/rethfro/1d-cnn-single-model-score-0-14-0-16-or-0-23


2. 特征工程

  • question(leak):

    • tf: q1/q2/q1+q2
    • tfidf: q1/q2/q1+q2
  • words(chars): 针对字符串计算

    • 词数
    • 词数差
    • 重叠词数:len(set(q1) & set(q2))
    • 相同度(相异度 = 1 - 相同度): com / (q1 + q2 - com)每个状态分量根据目标设置最优权重
    • simhash
    • jaccard: jaccard = lambda a, b: len(set(a).intersection(b))/(len(set(a).union(b))+0.)
    • 对目标影响大的词(lstm状态差等)
    • 编辑距离
      • fuzz.QRatio
      • fuzz.WRatio
      • fuzz.partial_ratio
      • fuzz.token_set_ratio
      • fuzz.token_sort_ratio
      • fuzz.partial_token_set_ratio
      • fuzz.partial_token_sort_ratio
      • ...
  • doc2num: 针对tf/tfidf/wordVectors等计算

    • n-grams: 结合tf/tfidf使用
    • gensim
      • wmd
      • norm_wmd(l2): norm_model.init_sims(replace=True)
    • skew/kurtosis: from scipy.stats import skew, kurtosis
    • scipy.spatial.distance: import braycurtis, canberra, cityblock, cosine, euclidean, jaccard, minkowski
    • cosine(修正)
  • lda

  • bleu(机器翻译指标):对两个句子的共现词频率计算torchtext