Skip to content

Latest commit

 

History

History

0-1.WordsDiscovery

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

新词发现算法

互信息(Pointwise Mutual Information)

互信息越大,说明这两个词经常出现在一起,意味着两个词的凝固程度越大,其组成一个新词的可能性也就越大。

举例:“电影院”的互信息是 p(电影院)分别除以 p(电)*p(影院) 和 p(电影)*p(院) 所得的商的较小值在取对数,这样处理会有更好的效果,因为用最小值来代表这个词的互信息,更能有力的证明该词的成词性。

左右熵(Information Entropy)

如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。

我们用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机。考虑这么一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”一词出现了四次,其中左邻字分别为 {吃, 吐, 吃, 吐} ,右邻字分别为 {不, 皮, 倒, 皮} 。根据公式,“葡萄”一词的左邻字的信息熵为 – (1/2)*log(1/2) – (1/2)*log(1/2),它的右邻字的信息熵则为 – (1/2)*log(1/2) – (1/4)*log(1/4) – (1/4)*log(1/4)。

Demo

from word_discovery import NewWords
discover = NewWords()
discover.parse('''中国科兴生物研发的克尔来福是一种灭活疫苗,由已杀灭的病原体制成,主要通过其中的抗原诱导细胞免疫的产生。另外几种疫苗,例如莫德纳和辉瑞的疫苗都属于核糖核酸疫苗,使用的是RNA疫苗原理,抽取病毒内部分核糖核酸编码蛋白制成疫苗。新加坡南洋理工大学感染与免疫副教授罗大海对BBC表示,“克尔来福是用比较传统的方法制成的(灭活)疫苗,灭活疫苗使用广泛而且非常成功,例如狂犬病疫苗。”理论上,科兴疫苗主要的优势在于它能够在常规冰箱温度下(2至8摄氏度)保存,这一点和牛津/阿斯利康研发的病毒载体疫苗有相同优点。莫德纳的疫苗必须存放在摄氏零下20度,而辉瑞疫苗必须存放在摄氏零下70度。这意味着科兴和牛津/阿斯利康这两种疫苗,更能有效地在发展中国家使用,因为那些地方可能没有足够的低温储存设备供疫苗保存。但是,相对于最新加入接种行列的单剂疫苗 — 美国杨森和中国康希诺 — 而言,科兴疫苗仍需注射两针。疫苗谣言的打破:改变DNA、植入微芯片等疫苗阴谋论。新冠疫苗接种在即,你该了解的四大问题。效果如何?科兴疫苗三期临床试验在4个国家展开,各国试验结果相差较大,有效性从50% - 90%不等。从2021年1月以来,至少有7个国家先后批准科兴疫苗紧急使用。不过到目前为止它的三期临床整体有效性数据仍未公布。截止今年3月8日,香港有10多万人接种第一剂科兴疫苗,虽然近期出现三宗接种科兴疫苗后死亡的案例,但港府新冠疫苗临床事件评估专家委员会对三宗案例的调查结果称科兴疫苗与死亡并无直接关系。今年1月13日,科兴董事长在谷物元联防联控机制发布会上给出一组数据:土耳其中期分析结果显示该疫苗保护率91.25%;印尼三期临床试验保护率65.3%;巴西三期临床试验从2020年10月开始,试验结果显示重症保护率达100%,对高危人群总体保护率达50.3%。''')
for k, v in discover.candidates():
	print(k, v) 

输出:

主要 {'pmi': 10.448116305409464, 'freq': 2, 'entropy': 1.0}
辉瑞 {'pmi': 10.448116305409464, 'freq': 2, 'entropy': 1.0}
NA {'pmi': 10.448116305409464, 'freq': 2, 'entropy': 1.0}
数据 {'pmi': 10.448116305409464, 'freq': 2, 'entropy': 1.0}
死亡 {'pmi': 10.448116305409464, 'freq': 2, 'entropy': 1.0}
莫德纳 {'pmi': 10.448116305409464, 'freq': 2, 'entropy': 1.0}
病毒 {'pmi': 9.448116305409464, 'freq': 2, 'entropy': 1.0}
新加 {'pmi': 9.448116305409464, 'freq': 2, 'entropy': 1.0}
今年 {'pmi': 9.448116305409464, 'freq': 2, 'entropy': 1.0}
案例 {'pmi': 9.448116305409464, 'freq': 2, 'entropy': 1.0}
个国家 {'pmi': 9.448116305409464, 'freq': 2, 'entropy': 1.0}
其中 {'pmi': 9.1261882105221, 'freq': 2, 'entropy': 1.0}
使用 {'pmi': 9.1261882105221, 'freq': 4, 'entropy': 1.5}
试验 {'pmi': 9.1261882105221, 'freq': 5, 'entropy': 1.3709505944546687}
结果 {'pmi': 9.1261882105221, 'freq': 4, 'entropy': 1.5}
制成 {'pmi': 9.03307880613062, 'freq': 3, 'entropy': 1.584962500721156}
例如 {'pmi': 8.863153804688308, 'freq': 2, 'entropy': 1.0}
三宗 {'pmi': 8.863153804688308, 'freq': 2, 'entropy': 1.0}
保护率 {'pmi': 8.863153804688308, 'freq': 4, 'entropy': 1.5}
年1月 {'pmi': 8.863153804688308, 'freq': 2, 'entropy': 1.0}
有效性 {'pmi': 8.64076138335186, 'freq': 2, 'entropy': 1.0}
接种 {'pmi': 8.318833288464496, 'freq': 4, 'entropy': 2.0}
科兴 {'pmi': 8.1261882105221, 'freq': 10, 'entropy': 1.3567796494470397}
下2 {'pmi': 8.055798882630704, 'freq': 2, 'entropy': 1.0}

Reference