考验AI对代词的理解力,解读艾伦AI研究所公布的数据集“QUOREF”
作者:互联网
图片出处:DeepMind
人们在写作时,经常会用到 “他、她、它” 之类的代词,指代前文中出现的某个实体。段落和文章越长,代词出现的频率就越高。
这个现象在非结构化语言中广泛存在。有时候,一句话中甚至可能会出现好几个 “它”,分别指代不同的实体。
对于人类而言,只要稍加练习,就可以凭借对上下文和句子的理解找出代词的映射对象。然而对于人工智能(AI)模型来说,这个任务就十分困难了,因为它很难联系上下文,尤其是跨度较长的文章。
反过来说,能否准确搜索、追踪、分析代词与实体之间的关联,对于 AI 能否准确理解文本内容至关重要。
这种能力又被称为共指消解(Conference Resolution),是自然语言处理(NLP)领域的重要研究课题,指的是通过追踪长句、段落、文章中的代词,找到其对应的指代对象或内容。
虽然目前有很多体量庞大的众包数据集,但它们主要考察模型理解局部语义及谓词参数结构上,涉及共指消解的问题很少见。从考察阅读能力的角度看,这些数据缺少了关键的模型评估维度。
针对这一问题,艾伦 AI 研究所的研究团队最近公布了一个新的众包数据集,名为 QUOREF,里面包含超过 2400 个广度选择问题,旨在专门考察模型的共指消解能力。想要回答问题,模型需要分析来自维基百科的 4700 个英文段落,从中找到各个实体的指代对象。
QUOREF 的构建
必须强调的是,想要制作 QUOREF 这样的数据集并不容易,原因主要有两个。
第一个原因是,众包数据提供者普遍对共指消解没什么概念,需要培训才能工作。
第二个原因是,即使众包数据提供者想出了一些共指消解问题,也可能因为过于简单而无法让模型得到训练。
而一个合格的问题是长这个样子的:
图片出处:ArXiv
即便是换人类来做题,可能都要花费一些时间,捋顺游戏、城市、人名等多个实体之间的关系,然后才能回答问题。
那么研究人员是如何构建 QUOREF 数据集的呢?主要过程可以分为两大步骤。
首先是在网上收集文本。研究人员在维基百科上抓取了各式各样的英文段落,涵盖电影,艺术,建筑,地理,历史和音乐等领域。
有趣的是,研究人员发现,电影文本非常适合用来制作困难的共指消解问题,因为电影情节概括中通常会提到很多角色名,很适合用来混淆 AI。最终,约有 40% 的段落样本取自电影情节介绍。
有了足够的文本,下一步就是发布众包任务。研究人员选择了亚马逊 Mechanical Turk 众包平台,要求参与者在每个段落中找到两个或更多的跨越式引用,并撰写相应的问题。
就像前文提到的,撰写合格的问题并不容易,研究人员会向他们展示好问题和不好问题的例子,再让参与者随机撰写问题,并在文章中至少标注一个答案所在的段落或跨越式引用。
QUOREF 数据集的特征。图片出处:ArXiv
为了保证数据质量,研究人员还人工抽查了 100 组问题及对应答案。他们发现,有 78 组数据需要复杂的共指消解能力才能完成,而余下 22 组难度较低。
这里所谓的难度较低,指的是问题很容易回答,或者可以通过非共指消解的方式回答。比如模型看到了 “那座城市被轰炸了” 这句话,但实际上全文只提到了一座城市 “布里斯托”,因此在回答问题 “哪座城市被轰炸了” 的时候,模型不需要进行复杂的代词关联,只需要找到 “城市的名字”,就能回答这个问题。
NLP 模型在 QUOREF 上的表现
在数据准备就绪后,研究人员就开始对多个现有 NLP 模型进行了测试,其中包括启发式基准和阅读理解式模型,比如 QANet,BERT QA 及对应 passage-only 版本,XLNet QA 及对应 passage-only 版本等等。
模型的表现由两个维度衡量,分别是精准匹配度(EM)和词袋表示下的平均重合度(F1),即在不考虑文法和单词顺序的情况下,模型预测结果和真实结果的相似度。
图片出处:ArXiv
从结果中可以看到,表现最好的是 XLNet QA 模型,EM 和 F1 分数分别达到了 67.88 和 70.5,但与人类的 86.75 和 93.41 分还有不小的差距。这是意料之中的结果,因为共指消解并非现有数据集和基准测试重点关注的能力。
另外,Passage-only(仅输入段落的)模型整体表现较差,原因在于此类模型经常将段落中最频繁出现的词视为指代对象,而没有在代词和实体之间找到关联性。
类似的情况在 BERT QA 和 XLNet QA 中也有出现,但没有 passage-only 模型那么频繁。比如在 BERT QA 中,只有 12% 的错误回答选择了出现次数最多或第一个出现的实体。
实际上,这涉及到 QUOREF 数据集一个小小的不足。因为文本内容都是从维基百科上找到的,它们通常都是针对某个实体的描述,所以第一个出现的或者出现次数最多的实体,可能恰好就是正确答案。这意味着,一些共指消解能力较弱的模型也可能因此蒙对答案。
但瑕不掩瑜,作为专门测试共指消解能力的数据集,QUOREF 足以证明目前常见的机器阅读理解模型仍有很大的进步空间。通过分析错误答案背后的原因,NLP 研究者才能更好地改进模型,实现在复杂、多元、大跨度的文本内容中准确对应实体与代词,做到真正意义上的的语义理解。
Refrence:
[1]https://arxiv.org/pdf/1908.05803.pdf
关于数据实战派
数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。
标签:段落,代词,AI,模型,理解力,消解,数据,QUOREF 来源: https://blog.csdn.net/shujushizhanpai/article/details/113701613