ICLR20| 融合多关系图卷积网络COMPGCN论文浅尝
作者:互联网
前言
今天是21年研究生考试的第一天,回想去年这个时候,自己也是百万大军中的一员,日复一日地在图书馆复习,然后订着酒店,赶着公交,奔赴考场,考完政治和英语伤心自己没有发挥好,这些场景恍如昨日。这一年过的有点光阴似箭,突如其来的疫情打乱了我们每个人的计划,我们被迫取消一些出行、一些活动,甚至一些企业也因为这次疫情而被迫关闭,但是我们依旧如那窗外的春燕,在凌厉的寒冬过后,几度徘徊后,待春暖花开后归来。
尽管20年还有计划未完成,会有一些遗憾,一些心愿,但是我们向前看,向往新的一年,希望自己能够科研上有所成果,技术上也变的更强,为人处世方面也有所加强,也希望大家能够长风破浪会有时,直挂云帆济沧海。
下面继续分享每周一篇论文阅读。
ICLR20| 融合多关系图卷积网络COMPGCN
我们现实世界的复杂关系一般是异质图,但是现在GCN一般是应用在同质图上,这就为我们真实建模应用上带来了很大的限制。相比GCN的同质图,知识图谱从拓扑结构上来看,其实也是一个异质图,不同的是,知识图谱增加了规则限制,因此适合逻辑推理,但是节点数和边关系数量很大,导致一般的GNN算法无法直接应用到知识图谱上。目前知识图谱嵌入的方法主流还是基于三元组的方法。但是我们可以利用知识图谱的优势来应用到异质图上,从节点和边的关系表示来增强学习。
Abstract
作者将多重关系融入到同质图中,每个边都有与之关联的标签和方向。 处理此类图的大多数现有方法都存在过拟合问题,并且仅限于学习节点表示。 在本文中,我们提出COMPGCN,这是一种新颖的图卷积框架,它将节点和关系共同嵌入到关系图中。 COMPGCN利用了来自知识图嵌入技术的各种实体关系组合操作,并根据关系的数量进行缩放。 我们在节点分类,链接预测和图分类等多项任务上评估了我们提出的方法,并取得了明显的优异结果。
1 Instruction
嵌入知识图(KG)方面已进行了广泛的研究(Nickel等,2016; Wang等,2017),其中共同学习了节点和关系的表示。 这些方法仅限于使用链接预测目标学习嵌入。由于GCN应用很大程度上只限于同质图,因此需要一种可以利用KG嵌入技术来学习特定于任务的节点和关系嵌入的框架。 在本文中,我们提出了COMPGCN,这是一种用于多关系图的新颖GCN框架,该框架系统地利用了来自知识图嵌入技术的实体-关系组合操作。 COMPGCN通过共同学习图中的节点和关系的矢量表示,解决了先前提出的GCN模型的缺点。 图1给出了COMPGCN的概述。
我们的工作可以总结如下:
- 我们提出了COMPGCN,这是一种在图卷积网络中整合多关系信息的新颖框架,该框架利用了各种知识图谱嵌入技术将节点和关系共同嵌入图中。
- 我们证明,COMPGCN框架概括了几种现有的多关系GCN方法(命题4.1),并且随着图中关系数量的增加而扩展(第6.3节)。
- 通过对节点分类,链接预测和图分类等任务的广泛实验,我们证明了所提方法的有效性。
2 Background
这节我们为GCNs应用无向图和它拓展到有向关系图做一个总结。
GCN在无向图应用:给定一个图 G = ( V , E , X ) G =(V,E,X) G=(V,E,X),其中V表示一组节点,E表示一组边,而 X ∈ R ∣ V ∣ × d 0 X∈R ^{| V |×d_0} X∈R∣V∣×d0表示每个节点的d0维输入特征。
从单个GCN层获得的节点表示定义为: H = f ( A ^ X W ) H = f(\hat{A}XW) H=f(A^XW)。 在此,将 A ^ = D − 1 2 ( A + I ) D − 1 2 \hat{A} =D^{-\frac{1}{2}}(A + I)D^{-\frac{1}{2}} A^=D−21(A+I)D−21定义是添加了自连接的归一化邻接矩阵,和D定义为 D i i ( A + I ) i j D_{ii}(A + I)_{ij} Dii(A+I)ij。 模型参数由 W ∈ R d 0 × d 1 W∈R^{d_0×d1} W∈Rd0×d1表示,f是一些激活函数。 GCN表示形式H对图形中每个节点的直接邻域进行编码。 为了捕获图形中的多跳相关性,可以堆叠几个GCN层,一层如下: H k + 1 = f ( A ^ H k W k ) H^{k + 1} = f(\hat{A}H^kW^k) Hk+1=f(A^HkWk),其中k表示层数, W k ∈ R d k × d k + 1 W^k∈R^{d_k×d_k + 1} Wk∈Rdk×dk+1 是特定于图层的参数,并且 H 0 = X H^0 =X H0=X。
GCN在多关系图上: 对于一个多关系图
G
=
(
V
,
R
,
E
,
X
)
G=(V,R,E,X)
G=(V,R,E,X) ,这里R表示关系集,每个边(u,v,r)表示从节点u到v存在关系r∈R , GCN公式基于以下假设: 有向边沿两个方向流动。 因此,对于每个边(u,v,r)∈E,逆边(v,u,
r
−
1
r^{-1}
r−1)包括在G中。在k层有向GCN层之后获得的表示形式为
H
k
+
1
=
f
(
A
^
H
k
W
r
k
)
H^{k + 1}=f( \hat{A}H^kW^k_ r )
Hk+1=f(A^HkWrk)
这里,
W
r
k
W^k _r
Wrk表示模型的关系特定参数。 但是,上述公式导致关系数量过多的过度参数化,因此Marcheggiani&Titov(2017)使用了特定于方向的权重矩阵。 Schlichtkrull等。 (2017)通过提出
W
r
k
W^k_ r
Wrk的块对角分解来解决过度参数化问题。
3 Method
在本节中,我们将对提出的方法COMPGCN进行详细说明。 总体架构如图1所示。我们用第2节中定义的
G
=
(
V
,
R
,
E
,
X
,
Z
)
G =(V,R,E,X,Z)
G=(V,R,E,X,Z)表示多关系图,其中
Z
∈
R
∣
R
∣
×
d
0
Z∈R ^{| R |\times d0}
Z∈R∣R∣×d0表示初始关系特征。 我们的模型是受使用Chebyshev多项式的GCN的一阶逼近(Kipf&Welling,2016)启发的。 继Marcheggiani&Titov(2017)之后,我们还允许有向边的信息沿两个方向流动。 因此,我们用相应的反边和关系扩展E和R,即
E
′
=
E
∪
(
v
,
u
,
r
−
1
)
∣
(
u
,
v
,
r
)
∈
E
∪
(
u
,
u
,
T
)
∣
u
∈
V
)
,
E'= E ∪ {(v, u, r^{−1}) | (u, v, r) ∈ E} ∪ {(u, u,T) | u ∈ V)},
E′=E∪(v,u,r−1)∣(u,v,r)∈E∪(u,u,T)∣u∈V),
和
R
′
=
R
∪
R
i
n
v
∪
T
R' = R∪R_{inv}∪{T}
R′=R∪Rinv∪T,其中
R
i
n
v
=
{
r
−
1
∣
r
∈
R
}
R_{inv} = \{r^{-1} | r∈R\}
Rinv={r−1∣r∈R}表示反向关系,T 表示自循环。
3.1 融合关系
与大多数现有的仅在图中嵌入节点的方法不同,COMPGCN学习d维表示
h
r
∈
R
d
h_r∈R^d
hr∈Rd,∀r∈R以及节点嵌入hv∈Rd,∀v∈V。将关系表示为矢量可以缓解以下问题: 在关系图上应用GCN时过度参数化。 此外,它允许COMPGCN利用任何可用的关系特征(Z)作为初始表示。 为了将关系嵌入合并到GCN公式中,我们利用知识图嵌入方法(Bordes等,2013; Nickel等,2016)中使用的实体-关系组合操作,其形式为
e
o
=
φ
(
e
s
,
e
r
)
.
eo=φ(es, er).
eo=φ(es,er).
在此,φ:Rd×Rd→Rd是一个融合算子,s,r和o表示知识图中的主体,关系和客体,而e(·)∈Rd表示其对应的嵌入。 在本文中,我们将自己局限于非参数化运算,例如减法(Bordes等,2013),乘法(Yang等,2014)和循环相关(Nickel等,2016)。 但是,COMPGCN可以扩展到参数化操作,例如神经张量网络(NTN)(Socher等人,2013)和ConvE(Dettmers等人,2018)。 我们将他们的分析作为以后的工作。
正如我们在第6节中所示,合成操作的选择对于确定学习的嵌入的质量很重要。 因此,可以采用未来开发的知识图的出色合成操作来进一步提高COMPGCN的性能。
3.2 更新参数
第二节定义的GCN更新方程式可以重写为
h
v
=
f
(
∑
(
u
,
r
)
∈
N
(
v
)
W
r
h
u
)
h_v = f( \sum_{(u,r)∈N(v) } W_rh_u)
hv=f((u,r)∈N(v)∑Wrhu)
其中N(v)是v的输出边缘的v的直接邻居的集合。 由于该公式存在过度参数化的问题,因此在COMPGCN中,我们按照上述关系r执行邻节点u的合成(φ)。 这使我们的模型在特征维数上呈线性(O(| R | d))的同时也可以感知关系。 此外,为了区别对待原始边缘,反边缘和自身边缘,我们为每个边缘定义了单独的过滤器。 COMPGCN的更新公式为:
h
v
=
f
(
∑
(
u
,
r
)
∈
N
(
v
)
W
λ
(
r
)
φ
(
x
u
,
z
r
)
)
h_v = f (\sum_{(u,r)∈N(v)} W_{λ(r)}φ(x_u, z_r) )
hv=f((u,r)∈N(v)∑Wλ(r)φ(xu,zr))
其中
x
u
,
z
r
x_u,z_r
xu,zr分别表示节点u和关系r的初始特征,
h
v
h_v
hv表示节点v的更新表示,并且
W
λ
(
r
)
∈
R
d
1
×
d
0
W_{λ(r)}∈R^{d1×d0}
Wλ(r)∈Rd1×d0是关系类型特定的参数。 在COMPGCN中,我们使用特定于方向的权重,即λ(r)= dir(r),表示为:
此外,在COMPGCN中,在等式中定义的节点嵌入更新之后。
关系嵌入也如下转换:
其中
W
r
e
l
∈
R
d
1
×
d
0
W_{rel}∈R^{d1×d0}
Wrel∈Rd1×d0 是一个可学习的变换矩阵,它将所有关系投影到与节点相同的嵌入空间中,并允许它们在下一个COMPGCN层中使用。 在表1中,我们在COMPGCN和其他现有方法之间就功能和参数复杂性进行了对比。
随着关系数量的增加而缩放为了确保COMPGCN随着关系数量的增加而缩放,我们使用Schlichtkrull等人提出的基础公式的一种变体。 (2017)。 它们不是为每个关系独立定义嵌入,而是将其表示为一组基本向量的线性组合。 正式地,让{v1,v2,…,vB}为一组可学习的基础向量。 然后,初始关系表示为:
在此, α b r α_{br} αbr∈R是关系和基础特定的可学习标量权重。
关于与Relational-GCN的比较注意,这与Schlichtkrull等人的基础公式不同。 (2017),其中为每个GCN层定义了一组单独的基础矩阵。 相反,COMPGCN使用嵌入矢量而不是矩阵,并且仅为第一层定义基本矢量。 后面的层根据等式4通过转换共享关系。这使我们的模型比Relational-GCN更有效的参数。
我们可以将等式2的公式扩展到具有k个堆叠的COMPGCN层的情况。 令hk + 1 v表示在k层之后获得的节点v的表示,定义为
类似地,令 h r k + 1 h^{k + 1}_ r hrk+1表示在k层之后关系r的表示。 然后,
在此, h v 0 h^0_ v hv0和 h r 0 h^0_ r hr0分别是初始节点( x v x_v xv)和关系( z r z_r zr)特征。
4. 实验
作者分别从以下几个方面评估COMPGCN。
- 链接预测是根据知识图中的已知事实推断缺失事实的任务。 在我们的实验中,我们利用FB15k-237(Toutanova&Chen,2015)和WN18RR(Dettmers et al。,2018)数据集进行评估。 继Bordes等。 (2013),我们使用过滤后的设置进行评估,并报告平均倒数排名(MRR),平均排名(MR)和Hits @ N。
- 节点分类是根据节点特征及其连接来预测图中节点的标签的任务。 与Schlichtkrull等类似。 (2017),我们在MUTAG(Node)和AM(Ristoski&Paulheim,2016)数据集上评估了COMPGCN
- 图分类,在给定一组图及其对应标签的情况下,目标是学习每个图的表示形式,然后将其表示给分类器进行预测。 我们评估了2个生物信息学数据集:MUTAG(图)和PTC(Yanardag&Vishwanathan,2015)。
在节点分类上,与性能最佳的基线相比,我们在两个数据集上均获得了3%的平均改善,而在图形分类上,我们在PTC数据集上获得了3%的改善。
5.总结
在本文中,我们提出了COMPGCN,这是一种新颖的基于图卷积的多关系图框架,该框架利用了各种组合运算符,包括知识图嵌入技术,将节点和关系共同嵌入图中。 我们的方法概括了几种现有的多关系GCN方法。 此外,我们的方法通过跨层共享关系嵌入并使用基分解来缓解过参数化的问题。 通过对知识图链接预测,节点分类和图分类任务的广泛实验,我们证明了COMPGCN相对于现有基于GCN的方法的有效性,并证明了随着关系数量的增加,它的可扩展有效性。
标签:COMPGCN,关系,嵌入,ICLR20,GCN,浅尝,我们,节点 来源: https://blog.csdn.net/qq_34739497/article/details/111738993