其他分享
首页 > 其他分享> > 《Information Extraction over Structured Data:Question Answering with Freebase》论文笔记

《Information Extraction over Structured Data:Question Answering with Freebase》论文笔记

作者:互联网

    首先是问题词 (question word, qword),比如what、who、how等等,作者举例了常用的9个问题词;然后是问题焦点(question foucs,qfocus),期待的答案类型,比如name、money、time等,作者  在这里并没有训练分类器,而只是简单地提取依赖于qword的名词作为qfocus;然后是问题动词(question verb,qverb),比如is、play、take等,从问题的主要动词中提取,问题动词也可以暗示答案                的类型,比如play动词,后面可能接instrument、movie、team等。最后是问题的主题(question topic,qtopic),问题的主题有助于我们找到相关的Freebase页面,可以简单的实现一个命名实体识别                  器发现问题的主题。注意问题可能不止一个主题。

 

 

 

 

      一个关系可能是由一系列的子关系组成,比如people.person.parents的子关系为people、person、parents。假设子关系之间条件独立:

     

        我们将问题的一个特征和候选答案的一个特征组合在一起,这样可以捕捉问题模式和答案节点之间的关系。

        比如问题-答案组合特征:qfocus=money | node_type=currency。

      我们将在Freebase的问答视为二分类任务,对主题图的每一个节点,我们提取特征并判断是否为答案节点。每个问题都由Stanford CoreNLP套件和无壳模型处理。然后对每一个节点,组合(combine)问题特征和节点特征。对于训练集的3000个问题,有3百万个节点(每一个主题图1000个节点),7百万个特征类型。在不同模型上训练,发现L1正则化的逻辑回归表现最好。

      首先对于给定的问题,我们需要定位该问题正确的主题节点。通过Freebase Search API对全部命名实体排名。WEBQUESTIONS不仅有标注答案,并且知道答案来自哪一个主题节点。因此,我们 可以利用训练集评估Freebase Search API的检索排名。

       

 

      主题词一旦确定,通过查询Freebase Topic API就可以检索到主题图。然后就是特征提取过程和模型训练了。

                   作者提出了一种从结构化数据源(Freebase)中自动提问的方法。 将问题特征与Freebase描述的答案模式相关联,并在平衡和现实的QA语料库上实现了最先进的结果。整个流程是先将问题解析依 赖解析得到问题图,然后命名实体识别提取主题,在FreeBase知识库中查询主题图,提取问题-候选答案组合特征,训练分类器。由此可见,如果主题在知识库中是不存在的,那么问题是解决不了的。同时一些推理性的问题也是无法解决的,比如小明比小红高多少。

 

标签:Information,知识库,特征,Freebase,Answering,问题,答案,节点
来源: https://www.cnblogs.com/baobaotql/p/12551233.html