首页 > 其他分享> > 考验AI对代词的理解力，解读艾伦AI研究所公布的数据集“QUOREF”

考验AI对代词的理解力，解读艾伦AI研究所公布的数据集“QUOREF”

2021-02-05 18:30:35 作者：互联网

图片出处：DeepMind

人们在写作时，经常会用到 “他、她、它” 之类的代词，指代前文中出现的某个实体。段落和文章越长，代词出现的频率就越高。

这个现象在非结构化语言中广泛存在。有时候，一句话中甚至可能会出现好几个 “它”，分别指代不同的实体。

对于人类而言，只要稍加练习，就可以凭借对上下文和句子的理解找出代词的映射对象。然而对于人工智能（AI）模型来说，这个任务就十分困难了，因为它很难联系上下文，尤其是跨度较长的文章。

反过来说，能否准确搜索、追踪、分析代词与实体之间的关联，对于 AI 能否准确理解文本内容至关重要。

这种能力又被称为共指消解（Conference Resolution），是自然语言处理（NLP）领域的重要研究课题，指的是通过追踪长句、段落、文章中的代词，找到其对应的指代对象或内容。

虽然目前有很多体量庞大的众包数据集，但它们主要考察模型理解局部语义及谓词参数结构上，涉及共指消解的问题很少见。从考察阅读能力的角度看，这些数据缺少了关键的模型评估维度。

针对这一问题，艾伦 AI 研究所的研究团队最近公布了一个新的众包数据集，名为 QUOREF，里面包含超过 2400 个广度选择问题，旨在专门考察模型的共指消解能力。想要回答问题，模型需要分析来自维基百科的 4700 个英文段落，从中找到各个实体的指代对象。

必须强调的是，想要制作 QUOREF 这样的数据集并不容易，原因主要有两个。

第一个原因是，众包数据提供者普遍对共指消解没什么概念，需要培训才能工作。

第二个原因是，即使众包数据提供者想出了一些共指消解问题，也可能因为过于简单而无法让模型得到训练。

而一个合格的问题是长这个样子的：

图片出处：ArXiv

即便是换人类来做题，可能都要花费一些时间，捋顺游戏、城市、人名等多个实体之间的关系，然后才能回答问题。

那么研究人员是如何构建 QUOREF 数据集的呢？主要过程可以分为两大步骤。

首先是在网上收集文本。研究人员在维基百科上抓取了各式各样的英文段落，涵盖电影，艺术，建筑，地理，历史和音乐等领域。

有趣的是，研究人员发现，电影文本非常适合用来制作困难的共指消解问题，因为电影情节概括中通常会提到很多角色名，很适合用来混淆 AI。最终，约有 40% 的段落样本取自电影情节介绍。

有了足够的文本，下一步就是发布众包任务。研究人员选择了亚马逊 Mechanical Turk 众包平台，要求参与者在每个段落中找到两个或更多的跨越式引用，并撰写相应的问题。

就像前文提到的，撰写合格的问题并不容易，研究人员会向他们展示好问题和不好问题的例子，再让参与者随机撰写问题，并在文章中至少标注一个答案所在的段落或跨越式引用。

QUOREF 数据集的特征。图片出处：ArXiv

为了保证数据质量，研究人员还人工抽查了 100 组问题及对应答案。他们发现，有 78 组数据需要复杂的共指消解能力才能完成，而余下 22 组难度较低。

这里所谓的难度较低，指的是问题很容易回答，或者可以通过非共指消解的方式回答。比如模型看到了 “那座城市被轰炸了” 这句话，但实际上全文只提到了一座城市 “布里斯托”，因此在回答问题 “哪座城市被轰炸了” 的时候，模型不需要进行复杂的代词关联，只需要找到 “城市的名字”，就能回答这个问题。

在数据准备就绪后，研究人员就开始对多个现有 NLP 模型进行了测试，其中包括启发式基准和阅读理解式模型，比如 QANet，BERT QA 及对应 passage-only 版本，XLNet QA 及对应 passage-only 版本等等。

模型的表现由两个维度衡量，分别是精准匹配度（EM）和词袋表示下的平均重合度（F1），即在不考虑文法和单词顺序的情况下，模型预测结果和真实结果的相似度。

图片出处：ArXiv

从结果中可以看到，表现最好的是 XLNet QA 模型，EM 和 F1 分数分别达到了 67.88 和 70.5，但与人类的 86.75 和 93.41 分还有不小的差距。这是意料之中的结果，因为共指消解并非现有数据集和基准测试重点关注的能力。

另外，Passage-only（仅输入段落的）模型整体表现较差，原因在于此类模型经常将段落中最频繁出现的词视为指代对象，而没有在代词和实体之间找到关联性。

类似的情况在 BERT QA 和 XLNet QA 中也有出现，但没有 passage-only 模型那么频繁。比如在 BERT QA 中，只有 12% 的错误回答选择了出现次数最多或第一个出现的实体。

实际上，这涉及到 QUOREF 数据集一个小小的不足。因为文本内容都是从维基百科上找到的，它们通常都是针对某个实体的描述，所以第一个出现的或者出现次数最多的实体，可能恰好就是正确答案。这意味着，一些共指消解能力较弱的模型也可能因此蒙对答案。

但瑕不掩瑜，作为专门测试共指消解能力的数据集，QUOREF 足以证明目前常见的机器阅读理解模型仍有很大的进步空间。通过分析错误答案背后的原因，NLP 研究者才能更好地改进模型，实现在复杂、多元、大跨度的文本内容中准确对应实体与代词，做到真正意义上的的语义理解。

Refrence：
[1]https://arxiv.org/pdf/1908.05803.pdf

关于数据实战派

数据实战派希望用真实数据和行业实战案例，帮助读者提升业务能力，共建有趣的大数据社区。

标签：段落,代词,AI,模型,理解力,消解,数据,QUOREF
来源： https://blog.csdn.net/shujushizhanpai/article/details/113701613