其他分享
首页 > 其他分享> > Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

作者:互联网

Abstract & Introduction & Related Work

Approach

每一个标注函数以一个文档作为输入,输出一系列与NER标签相关的spans

然后,这些输出通过一个具有多个emission(每个标签功能一个)的隐马尔可夫模型(HMM)进行汇总,其参数是以无监督的方式估计的。最后,汇总的标签被用来学习一个序列标签模型。这个过程是在目标领域的文件上进行的,例如一个金融新闻的语料库
在这里插入图片描述

Labelling functions

Out-of-domain NER models

第一个标注函数的集合是一系列在标注数据数据上训练好的NER模型,本文使用了在以下几个数据集上训练好的模型
在这里插入图片描述

Gazetteers

为了方便索引,把知识库建立成一个trie树

Heuristic functions

我们整合了各种手工制作的函数,依靠正则表达式来检测各种实体的出现

一个专门识别日期、时间、钱数、百分数和心数/序数值的概率分析器(Braun等人,2017)也被纳入

Document-level relations

一个span可能属于多种不同的命名实体,但是不太可能同时属于多种命名实体,因此我们提出用span在文档中出现过的次数来为它的每个命名实体加权
在这里插入图片描述

Aggregation model

然后,这些标签函数的输出通过一个聚合模型被聚合成一个单一的标注层。由于我们无法获得目标领域的标注数据,这个模型是以完全无监督的方式估计的

Model

对于每个token i和标签 j,我们给一个prior,假设它服从狄利克雷分布
在这里插入图片描述
w在这里表示过度矩阵的参数
在这里插入图片描述
多概率emission,给出一个包含所有标签j的概率分布
在这里插入图片描述

Parameter estimation

为了保证更快的收敛,在似然函数上引入一个限制:对于每个token i ,对应的潜在标签 s 必须在至少一个标注函数上的得分不为0

Prior distributions

看不懂

Decoding

前向后向算法

Sequence labelling model

在这里插入图片描述

Evaluation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

提了7个点的f1分数,但是好像没有说是跟谁比?

后续工作会考虑聚合模型中的标注函数之间的关系,此外一些标注函数可能含有较多的噪声,可以选择一个最优的子集来进一步提高模型性能

Remark

用多个标注函数进行聚合得到标注进行无标签的弱监督学习,我认为它能work的原因是引入了大量的inductive bias,并且作者应该有不错的算法功底(因为他用到了trie树),后续使用狄利克雷分布那边我没有看懂,之后补上这部分知识回来重读

标签:Named,函数,NER,Raki,一个,标签,模型,Approach,标注
来源: https://blog.csdn.net/Raki_J/article/details/122829523