[论文解读] 知识表示学习研究进展(研究综述)
作者:互联网
论文简介
0.1 文章信息
论文题目:知识表示学习研究进展 Knowledge Representation Learning: A Review
发表级别:计算机研究与发展 ›› 2016, Vol. 53 ›› Issue (2): 247-260.
作者列表:刘知远,孙茂松,林衍凯,谢若冰
作者单位:清华大学计算机科学与技术系
简介页面:链接
下载地址:链接
0.2 摘要
人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系。在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的因扰。最近,以深度学习为代表的表示学习技术受到广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习。该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。介绍知识表示学习的最新进展,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景。
0.3 关键信息
- 网络结构,使用节点和边的形式表示实体与关系;
- 数据稀疏的问题不易于表示(质疑);
- 表示学习的深度学习能够有效解决问题(什么 问题?);
- 介绍相关内容
0.4 主要问题
- 知识库建设的核心问题
从无(半)结构的互联网信息中获取有结构知识,自动融合构建知识库、服务知识推理等相关应用。知识表示是知识获取与应用的基础,因此知识表示学习问题是贯穿知识库的构建与应用全过程的关键问题。 - RDF=Resource Description Framework,W3C制定的标准,基于三元组
- 谷歌提出知识图谱
但是,基于三元组的表达方式存在两大问题:
0. 计算效率问题存在问题,移植性,扩展性,海量数据处理问题
2. 数据稀疏问题,导致长尾问题
1 表示学习
1.1 基本概念
- 知识计算:使用 l e l_e le和 l r l_r lr表示实体和关系,使用余弦计算距离
- One-hot编码(独热编码),每个词1个维度。缺点:无法反应词组间的关系
- 表示学习:从学习训练中得到的低维向量是一种分布由表示,单维度无意义,组合才有意义,类似于人脑的神经元组织。虽然单维度无意义,但是组合起来可以表达主体的关系和层次。
- 知识表示学习:面向知识库中实体和关系的表示学习,对知识推理、建立和应用有重要的意义。
1.2 经典应用
- 相似度计算
- 知识图谱补全
- 其他,如关系抽取、自动问答、实体链接等任务
1.3 主要优势
- 显著提升计算效率
- 有效缓解数据稀疏问题
- 实现异质信息融合
1.4 结论
优势明显、使用方便,值得广泛关注和研究。
2 表示学习的主要方法
知识库: G = { E , R , S } G=\{E,R,S\} G={E,R,S},其中 E = { e 1 , e 2 , . . . , e ∣ E ∣ } E=\{e_1, e_2, ..., e_{|E|}\} E={e1,e2,...,e∣E∣}, R = { r 1 , r 2 , . . . , r ∣ R ∣ } R=\{r_1, r_2, ..., r_{|R|}\} R={r1,r2,...,r∣R∣},而 S ⊂ E × R × E S\subset E \times R \times E S⊂E×R×E,可以表示为 s = { h , r , t } s=\{h, r, t\} s={h,r,t}。
2.1 距离模型 (Distance Model)
f r ( h , t ) = ∣ M r , l l h − M r , 2 l t ∣ L 1 f_r(h, t)=|M_{r, l}l_h-M_{r,2}l_t|_{L_1} fr(h,t)=∣Mr,llh−Mr,2lt∣L1
2.2 单层模型 (Single Layer Model)
f r ( h , t ) = u r T g ( M r , l l h − M r , 2 l t ) f_r(h, t)=u^T_rg(M_{r, l}l_h-M_{r,2}l_t) fr(h,t)=urTg(Mr,llh−Mr,2lt)
2.3 能量模型 (Semetics Maching Energy)
f r ( h , t ) = ( M 1 l h ⊗ M r , 2 ⋅ l t ) f_r(h, t)=(M_1l_h \otimes M_{r,2} \cdot l_t) fr(h,t)=(M1lh⊗Mr,2⋅lt)
2.4 双线性模型 (Lanent Factor Model)
f r ( h , t ) = l h T M r l t f_r(h, t)=l_h^TM_rl_t fr(h,t)=lhTMrlt
2.5 张量神经网络模型 (Neural Tensor Network)
基本思想:使用双线性模型,代替传统神经网络中的线性变换。
2.6 矩阵分解模型
代表方法是RESACL方法,其基本思想与LFM类似,不同之处在于RESACL方法会优化张量中所有的位置,包括0;而LFM方法只会优化知识库中的三元组。
2.7 翻译模型和其他模型 (略)
3 知识表示学习的主要挑战与已有解决方案
代表:TranseE,模型简单,适用于大规范的知识图谱,但对于复杂模型时常捉襟见肘。
3.1 复杂关系模型
觉的TranseE的复杂模型的改进主要包括以下内容:
- TransH模型
- TransR/CTransR 模型
- TransD模型
- TranA模型
- TranG模型
- KG2E模型
3.2 多源信息融合
- DKRL模型
- 文本与知识库融合的知识表示学习
Wang等人提出在表示学习中考虑文本数据,利用word2vec学习维基百科正文中的词表示,利用TransE学习知识库中的知识表示。同时,利用维基百科正文中的链接信息(锚文本与实体的对应关系),让文本中实体对应的词表示与知识库中的实体表示尽可能接近,从而实现文本与知识库融合的表示学习。Wang等人还将类似的想法用于融合实体描述信息。
3.3 关系路径建模
在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。Lao等人曾提出Path-ConstraintRandomWalk,PathRankingAlgorithm等算法,利用两实体间的关系路径信息预测它们的关系,取得显著效果,说明关系路径蕴含着丰富的信息。
为了突破TransE等模型孤立学习每个三元组的局限性,Lin等人提出考虑关系路径的表示学习方法,以TransE作为扩展基础,提出Path-basedTransE(PTransE)模型。
4 知识表示学习未来研究方向展望
对于 TransE 等模型面临的挑战,也已经提出了很多改进方案。然而,知识表示学习距离真正实用还很远,本节将对知识表示学习的未来方向进行展望。
4.1 面向不同知识类型的知识表示学习
有工作将知识库的关系划分为2-2,2-N ,N-2和 N-N 四类,并面向复杂关系建模开展了大量研究工作.研究表明,面向不同类型的关系,需要设计专门的知识表示模型。
近期发表在Science等权威期刊的认知科学研究成果总结认为,人类知识包括以下4种结构:
- 树状关系,表示实体间的层次分类关系,如生物界的分类系统等;
- 二维网格关系,表示现实世界的空间信息,如地理位置信息等;
- 单维顺序关系,表示实体间的偏序关系,如政治家的左右倾谱系分布等;
- 有向网络关系,表示实体间的关联或因果关系,如疾病之间的传染关系等。
4.2 多源信息融合的知识表示学习
在多源信息融合的知识表示学习方面,有以下3个方面的工作需要开展:
- 融合知识库中实体和关系的其他信息
知识库中拥有关于实体和关系的丰富信息,如描述文本、层次类型等.有机融合这些信息,将显著提升知识表示学习的表示能力. - 融合互联网文本信息
互联网海量文本数据是知识库的重要知识来源.人们提出远程监督(distant supervision)、开放信息抽取(openinformation extraction)等技术,从开放文本中抽取知识.这个过程也自然而然地建立起了知识库和文本之间的 联系,如何充分利用这些联系融合互联网文本信息, 意义重大.值得一提的是,目前大部分工作主要关注 面向实体表示的融合.实际上,若干研究工作已经利用卷积神经网络(CNN)建立起了关系表示,这为面向关系表示的信息融合提供了技术基础,最终实现融合文本信息和知识库的知识表示. - 融合多知识库信息
人们利用不同的信息源构建了不同的知识库.如何对多知识库信息进行融合表示,对于建立统一的大规模知识库意义重大.融合多源知识库信息,主要涉及实体融合、关系融合与事实融合。
4.3 考虑复杂推理模式的知识表示学习
考虑关系路径的知识表示学习,实际上是充分利用了两实体间的关系和关系路径之间的推理模式,来为表示学习模型提供更精确的约束信息。
4.4 其他研究方向
-
面向大规模知识库的在线学习和快速学习
大规模知识库稀疏性很强.初步实验表明,已有表示 学习模型在大规模知识库上效果堪忧,特别是对低频实体和关系的表示效果较差,而且知识库规模不断扩大,我们需要设计高效的在线学习方案.除了充 分融合多源信息降低稀疏性之外,我们还可以探索如何优化表示学习的样例顺序,借鉴 Curriculum Learning等算法思想,优先学习核心知识,然后学习外围知识,也许能够一定程度改善表示效果。 -
基于知识分布式表示的应用
知识表示学习还处于起步阶段,在知识获取、融合和推理等方向均 有广阔的应用空间.我们需要在若干重要任务上探索和验证知识表示学习的有效性.例如,关系抽取任务如果能够基于知识表示学习有效利用知识库信息,将能够极大提升抽取性能和覆盖面.再如,我们可以充分利用表示学习在信息融合上的优势,实现跨领域和跨语言的知识融合.此外,人脑强大的学习与推理能力,说明在低维语义空间中进行知识的学习与推理极具潜力,相关机理值得深人探索。
5 总结
本文是一篇非常好的表示学习的综述报告,不仅内容全面、关系清晰、分类合理、水平较高,而且对此领域的发展有一定的前瞻性和预见性,是本领域不可多得的一篇综述报告。
标签:表示,学习,知识,综述,关系,知识库,融合,解读,研究进展 来源: https://blog.csdn.net/weixin_43145361/article/details/115817003