其他分享
首页 > 其他分享> > [论文解读] 知识表示学习研究进展(研究综述)

[论文解读] 知识表示学习研究进展(研究综述)

作者:互联网

论文简介

0.1 文章信息

论文题目:知识表示学习研究进展 Knowledge Representation Learning: A Review
发表级别:计算机研究与发展 ›› 2016, Vol. 53 ›› Issue (2): 247-260.
作者列表:刘知远,孙茂松,林衍凯,谢若冰
作者单位:清华大学计算机科学与技术系
简介页面:链接
下载地址:链接

0.2 摘要

人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系。在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的因扰。最近,以深度学习为代表的表示学习技术受到广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习。该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。介绍知识表示学习的最新进展,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景。

0.3 关键信息

  1. 网络结构,使用节点和边的形式表示实体与关系;
  2. 数据稀疏的问题不易于表示(质疑);
  3. 表示学习的深度学习能够有效解决问题(什么 问题?);
  4. 介绍相关内容

0.4 主要问题

但是,基于三元组的表达方式存在两大问题:
0. 计算效率问题存在问题,移植性,扩展性,海量数据处理问题
2. 数据稀疏问题,导致长尾问题

1 表示学习

1.1 基本概念

1.2 经典应用

1.3 主要优势

1.4 结论

优势明显、使用方便,值得广泛关注和研究。

2 表示学习的主要方法

知识库: G = { E , R , S } G=\{E,R,S\} G={E,R,S},其中 E = { e 1 , e 2 , . . . , e ∣ E ∣ } E=\{e_1, e_2, ..., e_{|E|}\} E={e1​,e2​,...,e∣E∣​}, R = { r 1 , r 2 , . . . , r ∣ R ∣ } R=\{r_1, r_2, ..., r_{|R|}\} R={r1​,r2​,...,r∣R∣​},而 S ⊂ E × R × E S\subset E \times R \times E S⊂E×R×E,可以表示为 s = { h , r , t } s=\{h, r, t\} s={h,r,t}。

2.1 距离模型 (Distance Model)

f r ( h , t ) = ∣ M r , l l h − M r , 2 l t ∣ L 1 f_r(h, t)=|M_{r, l}l_h-M_{r,2}l_t|_{L_1} fr​(h,t)=∣Mr,l​lh​−Mr,2​lt​∣L1​​

2.2 单层模型 (Single Layer Model)

f r ( h , t ) = u r T g ( M r , l l h − M r , 2 l t ) f_r(h, t)=u^T_rg(M_{r, l}l_h-M_{r,2}l_t) fr​(h,t)=urT​g(Mr,l​lh​−Mr,2​lt​)

2.3 能量模型 (Semetics Maching Energy)

f r ( h , t ) = ( M 1 l h ⊗ M r , 2 ⋅ l t ) f_r(h, t)=(M_1l_h \otimes M_{r,2} \cdot l_t) fr​(h,t)=(M1​lh​⊗Mr,2​⋅lt​)

2.4 双线性模型 (Lanent Factor Model)

f r ( h , t ) = l h T M r l t f_r(h, t)=l_h^TM_rl_t fr​(h,t)=lhT​Mr​lt​

2.5 张量神经网络模型 (Neural Tensor Network)

基本思想:使用双线性模型,代替传统神经网络中的线性变换。

2.6 矩阵分解模型

代表方法是RESACL方法,其基本思想与LFM类似,不同之处在于RESACL方法会优化张量中所有的位置,包括0;而LFM方法只会优化知识库中的三元组。

2.7 翻译模型和其他模型 (略)

3 知识表示学习的主要挑战与已有解决方案

代表:TranseE,模型简单,适用于大规范的知识图谱,但对于复杂模型时常捉襟见肘。

3.1 复杂关系模型

觉的TranseE的复杂模型的改进主要包括以下内容:

3.2 多源信息融合

3.3 关系路径建模

在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。Lao等人曾提出Path-ConstraintRandomWalk,PathRankingAlgorithm等算法,利用两实体间的关系路径信息预测它们的关系,取得显著效果,说明关系路径蕴含着丰富的信息。
为了突破TransE等模型孤立学习每个三元组的局限性,Lin等人提出考虑关系路径的表示学习方法,以TransE作为扩展基础,提出Path-basedTransE(PTransE)模型。

4 知识表示学习未来研究方向展望

对于 TransE 等模型面临的挑战,也已经提出了很多改进方案。然而,知识表示学习距离真正实用还很远,本节将对知识表示学习的未来方向进行展望。

4.1 面向不同知识类型的知识表示学习

有工作将知识库的关系划分为2-2,2-N ,N-2和 N-N 四类,并面向复杂关系建模开展了大量研究工作.研究表明,面向不同类型的关系,需要设计专门的知识表示模型。

近期发表在Science等权威期刊的认知科学研究成果总结认为,人类知识包括以下4种结构:

  1. 树状关系,表示实体间的层次分类关系,如生物界的分类系统等;
  2. 二维网格关系,表示现实世界的空间信息,如地理位置信息等;
  3. 单维顺序关系,表示实体间的偏序关系,如政治家的左右倾谱系分布等;
  4. 有向网络关系,表示实体间的关联或因果关系,如疾病之间的传染关系等。

4.2 多源信息融合的知识表示学习

在多源信息融合的知识表示学习方面,有以下3个方面的工作需要开展:

  1. 融合知识库中实体和关系的其他信息
    知识库中拥有关于实体和关系的丰富信息,如描述文本、层次类型等.有机融合这些信息,将显著提升知识表示学习的表示能力.
  2. 融合互联网文本信息
    互联网海量文本数据是知识库的重要知识来源.人们提出远程监督(distant supervision)、开放信息抽取(openinformation extraction)等技术,从开放文本中抽取知识.这个过程也自然而然地建立起了知识库和文本之间的 联系,如何充分利用这些联系融合互联网文本信息, 意义重大.值得一提的是,目前大部分工作主要关注 面向实体表示的融合.实际上,若干研究工作已经利用卷积神经网络(CNN)建立起了关系表示,这为面向关系表示的信息融合提供了技术基础,最终实现融合文本信息和知识库的知识表示.
  3. 融合多知识库信息
    人们利用不同的信息源构建了不同的知识库.如何对多知识库信息进行融合表示,对于建立统一的大规模知识库意义重大.融合多源知识库信息,主要涉及实体融合、关系融合与事实融合。

4.3 考虑复杂推理模式的知识表示学习

考虑关系路径的知识表示学习,实际上是充分利用了两实体间的关系和关系路径之间的推理模式,来为表示学习模型提供更精确的约束信息。

4.4 其他研究方向

  1. 面向大规模知识库的在线学习和快速学习
    大规模知识库稀疏性很强.初步实验表明,已有表示 学习模型在大规模知识库上效果堪忧,特别是对低频实体和关系的表示效果较差,而且知识库规模不断扩大,我们需要设计高效的在线学习方案.除了充 分融合多源信息降低稀疏性之外,我们还可以探索如何优化表示学习的样例顺序,借鉴 Curriculum Learning等算法思想,优先学习核心知识,然后学习外围知识,也许能够一定程度改善表示效果。

  2. 基于知识分布式表示的应用
    知识表示学习还处于起步阶段,在知识获取、融合和推理等方向均 有广阔的应用空间.我们需要在若干重要任务上探索和验证知识表示学习的有效性.例如,关系抽取任务如果能够基于知识表示学习有效利用知识库信息,将能够极大提升抽取性能和覆盖面.再如,我们可以充分利用表示学习在信息融合上的优势,实现跨领域和跨语言的知识融合.此外,人脑强大的学习与推理能力,说明在低维语义空间中进行知识的学习与推理极具潜力,相关机理值得深人探索。

5 总结

本文是一篇非常好的表示学习的综述报告,不仅内容全面、关系清晰、分类合理、水平较高,而且对此领域的发展有一定的前瞻性和预见性,是本领域不可多得的一篇综述报告。

标签:表示,学习,知识,综述,关系,知识库,融合,解读,研究进展
来源: https://blog.csdn.net/weixin_43145361/article/details/115817003