在这个仓库当中本人旨实现深度学习的一些常见的模型:CNN、LSTM、GRU,然后再这些baseline模型中添加不同的注意力,在MR数据集当中验证结果。(希望这些代码对看到的人有所帮助,希望各位看到的人指出其中的不足,我会及时的采纳意见,修改和继续优化!)
实验数据集: 下载地址:https://www.cs.cornell.edu/people/pabo/movie-review-data/
Vocabulary Size: 18772
Train/Dev split: 9596/1066
目的是为了对比kim这篇文章的结果:
受到实验室师兄的启发,我试着在卷积上实现了一下注意力机制:
论文下载地址:https://pdfs.semanticscholar.org/4946/89f4522619b887e515aea2b205490b0eb5cd.pdf
RNN部分Baseline是LSTM(or双向)、GRU(or双向),并在两者上面添加了注意力机制
用手画的,有点low:
-
1.为何loss不降反升但acc还是不变?
-
2.矩阵3维*2维如何做到?
-
3.None的问题?
-
4.第一次尝试复现别人文章里的一些东西,理解是否有误?
-
5.实验结果还差别人的0.1个百分点,还有哪一些地方可以优化的?
-
6.注意力如何进行可视化?
-
7.模型的保存,中断恢复?
-
8.如何使用保存的参数测试一条数据?
