Skip to content

Latest commit

 

History

History
65 lines (48 loc) · 4.42 KB

NLPCC2019_成语阅读理解大赛.md

File metadata and controls

65 lines (48 loc) · 4.42 KB

比赛简介

解决的问题比较有意思,个人比较喜欢的一个比赛。比赛地址

本次竞赛将基于选词填空的任务形式,提供大规模的成语填空训练语料。在给定若干段文本下,选手需要在提供的候选项中,依次选出填入文本中的空格处最恰当的成语。

许多成语的含义并非简单字面意义的拼接或合成,而是可能来源于历史故事或具有隐喻含义等,这导致了成语往往不能“望文生义”。同时,相近词之间的细微差别也经常导致成语被误用,如「侃侃而谈」和「口若悬河」,尽管这两个成语都表示说话又多又长,但前者侧重描述说话者的神情,而后者则用以描述说话者的口才。由此可见,对成语有很好的理解和表示,对于中文领域的机器阅读理解将有很好的促进意义,并且对于中文机器翻译、汉语成语推荐系统等实际应用场景也会有所帮助。

数据来源

数据集的语料来源于论文《ChID: A Large-scale Chinese IDiom Dataset for Cloze Test》(ACL 2019)

具体示例如下:

比赛数据中,每条数据由若干段文本和一组固定长度的候选项构成,每段文本被挖去了若干个空格(每个空格都有唯一的编号),选手需要从候选项中选出每个空的答案。注意同一条数据的文本的填空答案在词义或语境上可能是相近的。保证每一条数据中,各个空的答案互不相同。数据样例如下(来自train):


{
  "content": [
    # 文段0
    "……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。", 
    # 文段1
    "在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。", 
    # 文段2
    "最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……", 
    # 文段3
    "“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。", 
    # 文段4
    "从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。", 
    # 文段5
    "……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"],
  "candidates": [
    "百尺竿头", 
    "随波逐流", 
    "方兴未艾", 
    "身体力行", 
    "一日千里", 
    "三十而立", 
    "逆水行舟", 
    "日新月异", 
    "百花齐放", 
    "沧海一粟"
  ]
}
 
对应的答案如下,其中第二列表示正确答案在候选项中的索引:



#idiom000378#,0
#idiom000379#,1
#idiom000380#,6
#idiom000381#,4
#idiom000382#,7
#idiom000383#,2
#idiom000384#,8
 

可以看出,对于文段2所需要填空的#idiom000381#,选项中「方兴未艾」、「一日千里」、「日新月异」都比较符合语境,并且彼此词义相近。但考虑到文段3中的#idiom000382#只能填「日新月异」,文段4中的#idiom000383#只能填「方兴未艾」,因此根据排除法,#idiom000381#也就只有「一日千里」可以填入。

评价方法

填空正确率。