文献阅读(12)WWW2015-LINE:Large-scale Information Network Embedding
作者:互联网
本文是对《LINE:Large-scale Information Network Embedding》一文的浅显翻译与理解,原文章已上传至个人资源,如有侵权即刻删除。
文章目录
Title
《LINE: Large-scale Information Network Embedding》
——WWW2015
Author: Jian Tang
总结
文章提出了LINE算法,该算法将节点之间的相互连接视为一阶相似度,对两节点各自的建立一阶相似度的节点序列(即各自的节点邻居序列),其间的相似度为二阶相似度。
算法通过引入二阶相似度,将一些性质相似但并未建立连接的节点,在嵌入后表示得关系更加密切。
1 一阶二阶相似度
First-order Proximity: 对节点u和v形成的一条边,会有相应的权重w_u,v,该权重即为一阶相似度。
Second-order Proximity: 令p_u={w_u,1,…,w_u,|v|},即与u构成一阶相似度的所有权重。对p_u和p_v,两序列的相似度即为二阶相似度。
2 LINE
First-order Proximity(仅能作用于无向图):
对无向边(i,j),有节点间的联合概率为:
其中u_i是节点v_i的低维向量表示,对式(1),其经验概率为:
对上述目标函数进行最小化则有:
其中d(·,·)为两个分布的距离,此处用到了KL散度来衡量,通过替换d和省略一些常量,则有:
Second-order Proximity(有向无向都可作用):
每个节点扮演着两个角色:节点本身和其他节点的上下文,对节点v_i,在充当其他节点上下文时,其表征设为u_i’。对每条边(i,j),则有:
|V|表示节点的上下文节点数量,式(4)定义了条件分布p(·|v_i),即网络中的节点总集,对上述目标函数进行最小化有:
由于不同节点在网路中的重要性可能不同,函数中引入λ_i来表示v_i的影响,可以通过度数或算法衡量。对p2,其经验分布为:
N(i)是节点v_i的出度邻居集,算法中令λ_i=d_i,通过使用KL散度代替式(5)中的d(),有:
3 模型优化
对式(6)的优化需要计算整个节点集的加和,计算量比较大,因此引入负采样,则有:
对式(3)也同样引入如式(7)形式的负采样,对式(7)使用异步随机梯度下降,有梯度为:
对于学习率的选择,会影响梯度大小。根据权重较小的边确定学习率则梯度爆炸,根据权重较大的边则梯度过小。
为解决该问题,文章首先选择将加权边展开为多条二进制的边。然而这样又会导致对内存需求过大,尤其是边的权重过大时。因此,要从原始边中采样并处理为二进制边,并根据边的权重确定对该边采样的概率。
4 问题讨论
Low degree vertices:
为准确地将低出(入)度的节点嵌入,文章为这些节点扩展二阶邻居,即邻居的邻居,节点v及其二阶邻居j之间的权重为:
New vertices:
对新到达的节点表示,如果其连接了现有已知节点,就可以得到经验分布。通过式(3)或(6),为得到新节点的嵌入,对目标函数的最小化有:
如果没有连接任何已知节点,就需要依靠其他信息,比如节点文本信息等。
标签:Information,12,Network,Proximity,order,二阶,一阶,相似,节点 来源: https://blog.csdn.net/CSDNTianJi/article/details/104537980