Paper-DailyReading

Dataset:

单文档摘要(single document)

CNN/DM

这个数据集是分别从CNN和DailyMail采集的数据，有匿名版本和非匿名版本，这里是非匿名版本。包含了287,227 训练集 13,368 验证集 11,490 测试集。
GigaWord

这个数据集中的摘要是指标题(一般只有一句话),包含了3.8M 训练集 189K 验证集和 1951 测试集
XSum

新提出的专注于生成式摘要任务的数据集，包含204,045 训练集 11,332 验证集 11,334 测试集

多文档摘要(multi document)

DUC
WikiSum

Models	RG-1	RG-2	RG-L
ETADS	41.75	19.01	38.89

Models	RG-1	RG-2	RG-L
BART	44.16	21.28	40.90

2019-11-07

Improving Abstractive Document Summarization with Salient Information Modeling ACL2019

这篇论文针对长文本编码和有效信息抽取的问题，提出了两种机制去解决。都是在注意力的基础上进行修改的。

focus attention 用于解决长文本编码问题，考虑到局部的信息，在query和key的运算之后加入高斯噪声，使其在远离注意力中心的单词权重更小一些。
selection network 用于解决有效信息抽取的问题，用key和query计算出当前单词的有效信息打分，然后将打分乘上注意力的权重

2019-11-08

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension arxiv

这是一篇关于预训练的论文，和之前的预训练任务不同，本篇论文专注于生成任务。

创新点主要有两点：

和其他预训练模型不同，本模型同时使用了encoder(双向用于编码信息)和decoder(单向用于生成任务),好像和原始的transformer也没有什么区别
提出了不同的掩码和变换方式,包括了Token masking ,token deletion, text infilling, sentence permutation, document rotation

2019-11-18

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context arxiv

本论文对原始Transformer模型只能编码固定长度的数据进行改进(Vaswani Transformer -> Universal Transformer -> Transformer-XL)

使用RNN的思想，将前面的状态作为历史信息输入到下一个时间步，和RNN不同的地方在于他不是在同一层输入历史信息，而是利用了上一层的历史信息
使用了相对位置编码，防止绝对位置编码时，两个不同的Block的同一位置不能区分。

2019-11.25

Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection

本文主要是让注意力更集中，实现方法，直接在每次注意力之后注意力权重只取top-k, k为超参数。

2019-11-27

Searching for Effective Neural Extractive Summarization: What Works and What’s Next

本论文主要对抽取式摘要任务的一些框架和各种模块进行了比较，

Encoder(Lstm效果会好一些但是容易过拟合, Transformer模型更加鲁棒)
Decoder(自回归,auto-regressive,这里使用的是pointer的decoder 和非自回归non auto-regressive,这里使用的是序列标注方法)一般来说自回归的方法效果较好
Position information(CNN数据集非常依赖位置信息,文中多个实验得出相同的额结论(sentence shuffle, distangling test etc.))
引入外部知识(无监督bert..和有监督(在某些额外的数据集上预训练然后迁移到本数据及)的预训练),一般无监督的效果较好，有监督的有domain shift problem
学习方法(预训练,强化学习,监督学习是互补的, 可以在已有的方法上加入新的学习方法依然可以得到提高)

2019-12-04

MeanSum : A Neural Model for Unsupervised Multi-Document Abstractive Summarization

本文的任务是多文档摘要，作者所提出一种新的利用无监督的方式生成摘要。

整个模型分为两个大块，

首先利用自编码器学习文档的编码(自编码器可以是预训练的)
摘要生成部分，简单的多篇文档的编码状态做一个平均，然后利用自编码器中的解码器生成摘要，再对摘要进行编码并且和所有文档的编码计算相似度作为损失。(值得注意的生成的摘要是离散状态，不能直接进行梯度反向传播,作者利用了Straight Through Gumbel-Softmax trick)

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
pic		pic
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pic

pic

README.md

README.md

Repository files navigation

Paper-DailyReading

About

Releases

Packages

zhdbwe/Paper-DailyReading

Folders and files

Latest commit

History

pic

pic

README.md

README.md

Repository files navigation

Paper-DailyReading

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages