Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
作者:互联网
Abstract & Introduction & Related Work
- 研究任务
无标注数据NER学习 - 已有方法和相关工作
- Unsupervised domain adaptation
- Aggregation of annotations
- Weak supervision
- 面临挑战
- 他们的方法依赖于一个临时的机制,用于生成候选span来进行分类
- 创新思路
- 提出一种弱监督学习方法来解决无标注数据的问题
- 使用一个隐马尔可夫模型(HMM),将带有噪声的标记功能统一为一个单一的(概率)标注
- 实验结论
Approach
每一个标注函数以一个文档作为输入,输出一系列与NER标签相关的spans
然后,这些输出通过一个具有多个emission(每个标签功能一个)的隐马尔可夫模型(HMM)进行汇总,其参数是以无监督的方式估计的。最后,汇总的标签被用来学习一个序列标签模型。这个过程是在目标领域的文件上进行的,例如一个金融新闻的语料库
Labelling functions
Out-of-domain NER models
第一个标注函数的集合是一系列在标注数据数据上训练好的NER模型,本文使用了在以下几个数据集上训练好的模型
Gazetteers
为了方便索引,把知识库建立成一个trie树
Heuristic functions
我们整合了各种手工制作的函数,依靠正则表达式来检测各种实体的出现
一个专门识别日期、时间、钱数、百分数和心数/序数值的概率分析器(Braun等人,2017)也被纳入
Document-level relations
一个span可能属于多种不同的命名实体,但是不太可能同时属于多种命名实体,因此我们提出用span在文档中出现过的次数来为它的每个命名实体加权
Aggregation model
然后,这些标签函数的输出通过一个聚合模型被聚合成一个单一的标注层。由于我们无法获得目标领域的标注数据,这个模型是以完全无监督的方式估计的
Model
对于每个token i和标签 j,我们给一个prior,假设它服从狄利克雷分布
w在这里表示过度矩阵的参数
多概率emission,给出一个包含所有标签j的概率分布
Parameter estimation
为了保证更快的收敛,在似然函数上引入一个限制:对于每个token i ,对应的潜在标签 s 必须在至少一个标注函数上的得分不为0
Prior distributions
看不懂
Decoding
前向后向算法
Sequence labelling model
Evaluation
Conclusion
提了7个点的f1分数,但是好像没有说是跟谁比?
后续工作会考虑聚合模型中的标注函数之间的关系,此外一些标注函数可能含有较多的噪声,可以选择一个最优的子集来进一步提高模型性能
Remark
用多个标注函数进行聚合得到标注进行无标签的弱监督学习,我认为它能work的原因是引入了大量的inductive bias,并且作者应该有不错的算法功底(因为他用到了trie树),后续使用狄利克雷分布那边我没有看懂,之后补上这部分知识回来重读
标签:Named,函数,NER,Raki,一个,标签,模型,Approach,标注 来源: https://blog.csdn.net/Raki_J/article/details/122829523