Skip to content

Latest commit

 

History

History
32 lines (14 loc) · 1.48 KB

2019_搜狐校园算法大赛_内容识别.md

File metadata and controls

32 lines (14 loc) · 1.48 KB

比赛内容

给定若干文章,判断文章的核心实体(每篇文章识别最多三个核心实体)以及对核心实体的情感态度(积极、中立、消极三种)。其中,实体词是指人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的词。而核心实体则是文章主要描述,或担任文章主要角色的实体词。因此,该任务可以简单理解为命名实体识别相关任务+情感分析,处理的上下文是整篇文章而非一句话或者几句话形成的段落。

数据介绍

文章ID 主实体1 主实体2 主实体3 态度1 态度2 态度3
1 搜狐 积极

评测方案

Score(Final) = 0.5*Score(Entity)+0.5*Score(Sentiment),其中Score(Entity/Sentiment)均为F1得分

赛前分析

实体分析区别于传统的人名,地名和机构名的识别,粒度更细,种类更多,这是难点和特色之一;

针对实体的情感分析也是特色,相关任务包括面向切面的情感分析,基于视角的情感分析等,在该Repo中也有相关比赛出现;

篇章级的分析,和天池瑞金比赛的复赛阶段任务-关系分类,情景类似,在处理的时候需要处理好篇章上下文的问题;

模型的问题,除了尝试BERT之外,百度最近的ERNIE仍旧是非常值得一试的预训练模型;

分析至此,静等比赛结束,进行方案复盘。