HotpotQA 多跳知识图谱问答数据集 Multi-hop KGQA
作者:互联网
论文地址:HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering
论文来源:EMNPL 2018
问题介绍:
问答(QA)的任务提供了一种可量化和客观的方法来测试智能系统的推理能力。而很多数据集却有以下不足,一,一些数据集主要关注在单段落,单文档,单跳的推理能力测试;二,基于知识库的数据集结构受限,问题与回答多样性弱;三,数据集中只有问题与回答,缺少对支持事实的标注,很难学习推导过程与可解释的预测。作者制作了一个新的数据集,在多文档中回答问题,所以需要多跳推理,标注支持事实,并且含有对照类型的问题。
数据举例:
数据收集:
1.构建Wikipedia超链接图。(观察到Wikipedia中首段可提问性强,链接常常关联度高)
2.生成候选段落对。(基于bridge entity对链接图抽样)
3.针对对比问题单独抽取。(测试对同类实体的理解性)
4.标注支持事实。(把对推理直接相关的句子进行标注)
处理和基准设置
把单跳问题列入train-easy,基准模型可以正确回答的列入train-medium,无法正确回答的列入train-hard等4类中。其中test-distractor挑战模型存在噪声时找到真实支持事实,test-fullwiki通过要求它回答所有维基百科文章的第一段没有指定黄金段落的问题来充分测试模型找到相关事实以及推理相关事实的能力。
数据分析:
一。问题类型
二。回答类型:
三。推导类型:
实验模型:
复现 Clark and Gardner (2017)的模型,包括字符级RNN,self-attention,bi-attention等结构,作者还加入了针对判断支持事实的模块。把最后输出层加入了判断yes,no,span的结构。
评价指标:
以EM与F1作为指标,P(精确度)R(召回率),考虑单独与联合共三种情况,表现对答案,可解释性,与联合的性能。
实验结果:
结论:
作者提出了HotpotQA,这是一个大规模的问答数据集,旨在促进能够对多种自然语言进行可解释的多跳推理的QA系统的开发。 作者还提供了一种新型的仿真比较问题,以测试系统提取和比较文本中各种实体属性的能力。
标签:HotpotQA,Multi,数据,KGQA,问题,回答,推理,事实,标注 来源: https://blog.csdn.net/a493823882/article/details/118556305