研读论文报告—《大规模英语动词多词表达式注释语料库的构建》
作者:互联网
论文出处:2018paper of LREC
http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf
背景:多次表达式的复杂以及出现率非常大。动词表达式的歧义问题以及前人工作较为少。一般都做名词多词表达式。
基于上述背景:此实验主要是构建一个全新的动词多词表达式语料库,非充满技术含量的实验,主要方法是众包技术,人工注释,以及各种语法知识。
数据来源:华尔街日报大量英语文章的主体。开源:https://github.com/naist-cl-parsing/Verbal-MWE-annotations
格式如上图。
1.介绍:从华尔街日报中抽取了大量的VMWES并做好排序和初步筛选工作。
筛选规则有去掉be动词的以及带有名词的VMWES。
做好目录分类:介词动词,动词小品词,轻动词短语,动词加名词加介词,半固定结构。
2. 构建注释语料库:众包技术(用来消歧义)(众包技术:简单来说就是技术问题靠大家解决,分配给互联网上自愿完成任务的 个人) 详细可以看这里~
web注释平台,给专业人士一个平台对VMWES进行注释。对注释员进行非常严格的筛选。
3.检查:对于出现了重复及包含的问题: 进行合并或者取包含词(不是被包含那个)
4.展望:继续扩大语料库以及挖掘VMWES更多的信息。
我把我的注释PDF放在这里(我的资源)。(不知道为什么现在不能规定积分,默认了下载要五个积分。。)
第一次研读论文,经验不足,以此记录。
标签:多词,研读,语料库,动词,注释,VMWES,表达式 来源: https://blog.csdn.net/bensonrachel/article/details/89323694