知识图谱问答的学习笔记
作者:互联网
基于关系技术(主要思想是将大问题化成精心设计的能够解决的一个个小问题):
子图匹配:
基于知识的问答分为两种:
1. 基于信息检索
(1) 生成候选答案
(2) 对候选答案排名
2. 基于语义理解
(1) 讲自然语言问句转化成逻辑形式
(2) 执行得出结果
1. 从问题中提取出问题的提及实体并在知识图谱中找到相应的实体节点。
2. 找到两跳之内的所有候选答案。
3. 对候选答案排序后,取得分最高的候选答案。
该文章发于EMNLP 2014,作者提出了一个基于Freebase,根据问题中的主题词在知识库中确定候选答案,构建出一个模型来学习问题和候选答案的representation,然后通过这些representation来计算问题和候选答案的相关度来选出正确答案,在不适用词表、规则、句法和依存树解析等条件下,超越了当时最好的结果。
具体参照论文笔记:
该文章发于ACL 2015,作者提出了一个基于Freebase,使用multi-column convolutional neural networks(MCCNNs)的自动问答模型,分别从答案路径(answer path), 答案背景信息(answer context), 以及答案类型(answer type) 来理解问题,并学习它们的分布式表示(distributed representations),在不使用任何手动特征及词表等条件下在问答数据集WEBQUESTIONS 上取得了很好的结果。
具体参考论文笔记:
方式1:后期融合(集成)
针对每个知识来源独立地培训QA系统,然后集成预测。
方式2:早期融合
将所有的知识来源合并成一个单一的数据结构
基于Freebase的基于关系提取和文本验证的问题回答:
基于知识库问答系统指的是利用知识库中的知识对人们输入的自然语言问句给出答案,例如:“世界上最高的山峰是什么?”->“珠穆朗玛峰”。而传统的基于知识库的问答系统通常只能依赖少量标注好的训练数据。后来结合知识库,人们在问答系统中引入关系抽取这种方法。关系抽取虽然能够很好地解决数据的稀缺问题,但是不如语义解析之类深层理解的方式更具有表达性,因此很难回答那些有很多限制的问题。于是,本文在利用关系抽取的方式基础上并引入维基百科数据方式来解决这个问题。
方法:
分为两步:第一步是基于Freebase来推理,第二步是基于Wikipedia来推理,整体结构如下:
第一步(KB-QA):
1.Entity Linking:找到问题的中心实体和对应Freebase可能的实体(S-MART)
2.Relation
Extraction:预测问题实体和答案实体对应Freebase可能的关系,设计了一个神经网络MCCNN(Multi-Channel Convolutional Neural
Network)具体结构如下:
3.Joint
Inference:由于实体和关系具有很强的相互选择性,而前面的局部模型不能充分利用这种相互关系。所以对前面的前两步得到的实体序列和关系序列进行组合,利用SVM rank分类器找到最有可能的实体-关系对,从Freebase中得到候选答案。
具体参照论文笔记:
利用知识库和文本结合来改进开放域QA:
具体参照:
Holly:《利用知识库和文本结合来改进开放域QA》阅读笔记27 赞同 · 0 评论文章正在上传…重新上传取消
语义解析:
1. 人工构建规则
2. 基于语法
3. 基于学习
分阶段生成查询图的语义解析:基于知识库的问题回答:
我们对知识库问答提出一个新颖的语义解析框架。我们定义了一个类似于知识库子图的查询图,可以直接映射为逻辑形式。语义解析被简化为查询图生成,被表述为分阶段搜索问题。与传统方法不同,我们的方法在早期就利用知识库来修剪搜索空间,从而简化语义匹配问题。通过应用实体链指系统和深度卷积神经网络匹配问题和谓词序列,我们的系统由于之前的方法,在WebQuestion数据集上F1达到了52.5%。
我们提出的解决方案:
1. 数据驱动,关系优先框架
语义查询图:语义查询图(表示�Q)是一个图表,其中每个顶点�Ris与实体相关的短语,短语类或wh-words问题句子
与关系词在句子的问题
2. 节点优先:
状态转换
与STAGG相似的贪婪搜索算法
更好的中间状态应该有更多的机会被访问并产生后续状态。
为了减少状态转换过程的搜索空间,我们还为每个操作提出了几个约束条件。
激励函数:
获取相应状态的特征并输出相应状态的奖励
特性:例如节点/关系的置信概率,常数/变量的数量
标签:候选,基于,图谱,知识库,语义,笔记,答案,Freebase,问答 来源: https://blog.csdn.net/u011983997/article/details/122765176