Skip to content

Latest commit

 

History

History
43 lines (22 loc) · 2.33 KB

2019_语言与智能技术竞赛_机器阅读理解.md

File metadata and controls

43 lines (22 loc) · 2.33 KB

任务

对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,对问题及候选文档进行分析,输出能够满足问题的文本答案a。

数据

任务数据集包含约28万来自百度搜索的真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。数据集划分为包含27万个问题的训练集、3000个问题的开发集和7000个问题的测试集。

评价方法

基于测试集的人工标注答案,采用ROUGE-L和BLEU-4作为评价指标。

基线系统

竞赛提供两个开源的阅读理解基线系统BiDAF和Match-LSTM。分别由:PaddlePaddle和TensorFlow2个框架实现,基线系统的实现及结果评价请参考:开源系统

https://github.com/baidu/DuReader和数据集[论文https://arxiv.org/abs/1711.05073](https://arxiv.org/abs/1711.05073)。百度AI Studio提供免费GPU集群和基线示例

Rank2模型

MRC系统分两个步骤回答问题:

文本预处理:对文档进行预处理,并检索与问题相关的段落。

多任务学习理解模型:对问题和检索到的文章进行处理以获得答案。

文本清理:

不切分URL(URL添加到Jieba的定制字典中)、删除html标签和文档标题的网站名称、对口头文本纠正拼写错误的单词、删除重复的单词或标点、删除空字符串、删除空段落和重复段落。

特征构建:

Word-level embedding、POS tag embedding、Keyword feature、Word-in-question feature(单词计算一个二元特征,将关键字特征与问题中词特征相乘,以表明关键字是否出现在问题中)、Question category feature(将问题分类为粗粒度和细粒度,粗粒度类别包括实体(Entity)、描述(Description)和YesNo。细粒度的分类包括何时、什么、谁、哪里、为什么、如何、多长时间、级别、解决方案等等。每一类被映射到一个m维嵌入)

img

类似信息资源

https://ai.baidu.com/broad/leaderboard?dataset=dureader

https://github.com/baidu/DuReader

https://www.kesci.com/home/competition/5ad56e667238515d80b53704/content