【论文阅读】Wikipedia用た本の有現出デタッの築を用いた日本語の固有表現抽出のデータセットの構築[言語処理学会第27回年次大会(NLP2021)]
作者:互联网
论文地址:https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/P2-7.pdf
数据集地址:https://github.com/stockmarkteam/ner-wikipedia-dataset
1 .前言
固有表示提取(识别)是提取人名、组织名等固有名词、日期、数值表示的自然语言处理的基本技术。固有表现提取可以用于文章的结构化,以及人名等隐私相关部分的隐藏等应用。制作固有表示提取器时,需要对语料库添加固有表示的数据集。关于日语的数据库中,作为被广泛公开的东西,京都大学网页文件领先语料库[1],以及UD_Japanese-GSD数据库中[2]对固有表现信息赋予了[3]等。我们最近利用维基百科构建了提取日语固有表达的数据集,并进行了公开[4]。本文的主要目的是首先对该数据集进行详细的描述,并从该数据集制作出对BERT[5]进行微调的固有表示提取器,并对其性能进行评估。
2 .数据集
2.1 固有表現の種類
本数据库中,应用上只描写了重要的固有名词。日期和数值表现方面,以后再做讨论。数据库中被表现的固有范畴是“人名”,“法人名称”,“政治组织名”,“其他的组织名称”、“地名”、“设施名”,“产品名称”,“事件名称”的8种,其概要汇总在表1中。对应于各个范畴,关根的扩展固有表示层次[6]中定义的固有表示的种类也汇总在表1中。
2.2创建数据集
该数据集使用日文版维基百科制作而成。首先,使用维基百科[7]从每篇文章中提取正文,将正文分割成句子单位,并进行了预处理。前处理的具体内容是,字符串的正规化(nfkc),括号的删除。此后,为了进行有效标注,股票merck公司制作的固有表达提取器使用(不公开),固有词进行提取,含有某种固有词的句子被挑出,人的手进行了标注。另外固有表现各范畴中固有的表现包括在1000以上的调整。
最后,进行标注的句子有4859句,其中包括各范畴的固有表达数量表1总结。另外,作负例,没有固有的表现包括数据也增添了484句,因此数据库中的合计是5343。
2.3数据集的公开
数据集首先作为版本1在2020/12/15[4]中发布,之后对数据进行修改和添加,生成了版本2。这次的论文描述了这个版本2,版本2也将在相同的资料库中公开。
3 BERT的固有表现提取器的性能评价
在本章中,将通过本数据集定量地评估能够制作出性能达到何种程度的固有表现提取器。因此,人们。[5]使用进行了实验。在这里每平方米从数据库中随机选出的8成的数据使用人们。微调,剩下的2成的数据作为测试数据,使用微调的人们。性能进行了评价。表2是对适合率、再现率、F值按固有表现的类别和整体进行调查的结果(数值为10次尝试的平均值).类别整体的F值为86%左右。
基本上,数据集中所包含的固有表示数量越多的类别,F值越高。在大体上包含2000个以上固有表达的类别(人名、法人名、地名)中,F值约占90%。除此之外,在包含约1000种固有表现的类别中,F值约占80%,只有产品名称类别的F值占73%。根据各分类的固有表现提取的难易度,F值有所波动。在数据集中包含约1000个固有表示的类别中,F值为80%左右,在包含2000以上的类别中,F值达到90%左右时,这一结果被从类推。从这一结果可以推断出,根据不同的目的,应该建立多大规模的数据集是一个参考。
4 总结
本论文详细描述了利用维基百科提取日语固有表达的数据集,对于使用本数据集时,能制作出多大性能的固有表现提取器,也使用BERT进行了评价。
标签:現出,27,提取,固有,表现,维基百科,类别,表現,数据 来源: https://www.cnblogs.com/Harukaze/p/15612142.html