其他分享
首页 > 其他分享> > 二、知识图谱技术体系

二、知识图谱技术体系

作者:互联网

知识图谱的构建技术主要有自顶向下自底向上两种:

在知识图谱技术发展初期,多数参与企业和科研机构主要采用自顶向下的方式构建基础知识库,如Freebase。随着自动知识抽取与加工技术的不断成熟,当前的知识图谱大多采用自底向上的方式构建,如Google的Knowledge Vault和微软的Satori知识库。

知识图谱的架构主要可以被分为:

 

逻辑架构


 在逻辑上,我们通常将知识图谱划分为两个层次:数据层模式层

举例:

 

技术架构


 知识图谱的整体架构如图所示,其中黑虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。

构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:

 

数据采集 


 

信息抽取 (参见上一章) 


    信息抽取(infromation extraction)是知识图谱构建的第1步,是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取

 

 知识融合 


    通过信息抽取,我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。如果我们将接下来的过程比喻成拼图的话,那么这些信息就是拼图碎片,散乱无章,甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。也就是说:

   那么如何解决这一问题,就是在知识融合这一步里我们需要做的了。 知识融合包括2部分内容:

   实体链接

   知识合并

 

知识加工 


   在前面,我们已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。

   知识加工主要包括3方面内容:

  本体构建

    本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型以形式化的方式对概念及其之间的联系给出明确定义。本体最大的特点在于它是共享的,本体反映的知识是一种明确定义的共识。如:“人”、“事”、“物”。

    本体是同一领域内的不同主体之间进行交流的语义基础。本体是树状结构,相邻层次的节点(概念)之间有严格的『IsA』关系。在知识图谱中,本体位于模式层,用于描述概念层次体系,是知识库中知识的概念模板。

    本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。

   自动化本体构建过程包含三个阶段:

   举例:

  知识推理

   在完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重。

   假设,A的孩子Z,B有孩子Z,那么A,B的关系很有可能是配偶关系

   知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。知识的推理方法可以分为3类:

 

  质量评估

    质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量

 

知识更新


 从逻辑上看,知识库的更新包括概念层的更新和数据层的更新

  知识图谱的内容更新有两种方式:

 

参考架构图


      

参考资料


标签:体系,实体,图谱,知识,抽取,本体,知识库
来源: https://www.cnblogs.com/tgzhu/p/14395279.html