首页 > 其他分享> > 文献阅读（12）WWW2015-LINE：Large-scale Information Network Embedding

文献阅读（12）WWW2015-LINE：Large-scale Information Network Embedding

2020-02-27 16:09:51 作者：互联网

本文是对《LINE：Large-scale Information Network Embedding》一文的浅显翻译与理解，原文章已上传至个人资源，如有侵权即刻删除。

文章目录

Title
总结

1 一阶二阶相似度
2 LINE

First-order Proximity（仅能作用于无向图）：
Second-order Proximity（有向无向都可作用）：

3 模型优化
4 问题讨论

Title

《LINE: Large-scale Information Network Embedding》
——WWW2015
Author: Jian Tang

总结

文章提出了LINE算法，该算法将节点之间的相互连接视为一阶相似度，对两节点各自的建立一阶相似度的节点序列（即各自的节点邻居序列），其间的相似度为二阶相似度。

算法通过引入二阶相似度，将一些性质相似但并未建立连接的节点，在嵌入后表示得关系更加密切。

1 一阶二阶相似度

First-order Proximity: 对节点u和v形成的一条边，会有相应的权重w_u,v，该权重即为一阶相似度。
Second-order Proximity: 令p_u={w_u,1,…,w_u,|v|}，即与u构成一阶相似度的所有权重。对p_u和p_v，两序列的相似度即为二阶相似度。

2 LINE

First-order Proximity（仅能作用于无向图）：

对无向边(i,j)，有节点间的联合概率为：
在这里插入图片描述
其中u_i是节点v_i的低维向量表示，对式(1)，其经验概率为：

对上述目标函数进行最小化则有：

其中d(·,·)为两个分布的距离，此处用到了KL散度来衡量，通过替换d和省略一些常量，则有：

Second-order Proximity（有向无向都可作用）：

每个节点扮演着两个角色：节点本身和其他节点的上下文，对节点v_i，在充当其他节点上下文时，其表征设为u_i’。对每条边(i,j)，则有：
在这里插入图片描述
|V|表示节点的上下文节点数量，式(4)定义了条件分布p(·|v_i)，即网络中的节点总集，对上述目标函数进行最小化有：

由于不同节点在网路中的重要性可能不同，函数中引入λ_i来表示v_i的影响，可以通过度数或算法衡量。对p2，其经验分布为：
在这里插入图片描述
N(i)是节点v_i的出度邻居集，算法中令λ_i=d_i，通过使用KL散度代替式(5)中的d()，有：

3 模型优化

对式(6)的优化需要计算整个节点集的加和，计算量比较大，因此引入负采样，则有：
在这里插入图片描述
对式(3)也同样引入如式(7)形式的负采样，对式(7)使用异步随机梯度下降，有梯度为：

对于学习率的选择，会影响梯度大小。根据权重较小的边确定学习率则梯度爆炸，根据权重较大的边则梯度过小。

为解决该问题，文章首先选择将加权边展开为多条二进制的边。然而这样又会导致对内存需求过大，尤其是边的权重过大时。因此，要从原始边中采样并处理为二进制边，并根据边的权重确定对该边采样的概率。

4 问题讨论

Low degree vertices:
为准确地将低出（入）度的节点嵌入，文章为这些节点扩展二阶邻居，即邻居的邻居，节点v及其二阶邻居j之间的权重为：
在这里插入图片描述
New vertices:
对新到达的节点表示，如果其连接了现有已知节点，就可以得到经验分布。通过式(3)或(6)，为得到新节点的嵌入，对目标函数的最小化有：

如果没有连接任何已知节点，就需要依靠其他信息，比如节点文本信息等。

CSDNTianJi 发布了13 篇原创文章 · 获赞 19 · 访问量 1万+ 私信关注

标签：Information,12,Network,Proximity,order,二阶,一阶,相似,节点
来源： https://blog.csdn.net/CSDNTianJi/article/details/104537980