其他分享
首页 > 其他分享> > 《metapath2vec: Scalable Representation Learning for Heterogeneous Networks》

《metapath2vec: Scalable Representation Learning for Heterogeneous Networks》

作者:互联网

链接: link.

ABSTRACT

开发了两个可扩展的表示学习模型,即metapath2vec和metapath2vec ++,保留异构网络的结构和语义相关性。

INRTODUCTION

基于word2vec的网络表示学习框架,例如DeepWalk,LINE和node2vec。这些表示学习方法不是手工编写网络特征设计,而是从“原始网络”中自动发现有用且有意义(潜在)的特征。
与传统的基于元路径的方法相比,潜在空间表示学习的优势在于它能够在没有连接元路径的情况下对节点之间的相似性进行建模。
异构网络表示学习问题目标是同时学习多种类型节点的低维和潜在嵌入。
metapath2vec的目标是最大化保留给定异构网络的结构和语义的可能性。在metapath2vec中,首先提出基于元路径的异构网络中的随机游走,以生成具有针对各种类型节点网络语义的异构邻域。其次,我们扩展了skip-gram模型,以便于对地理上和语义上相近的节点进行建模。最后,我们开发了一种基于异构负采样的方法,称为metapath2vec ++,它可以准确,高效地预测节点的异构邻域。
metapath2vec和metapath2vec ++模型不同于Predictive Text Embedding (PTE)模型。首先,PTE是一种半监督学习模型,它包含文本数据的标签信息。其次,PTE中的异质性来自文本网络,其中链接连接两个单词,单词及其文档,以及单词及其标签。本质上,PTE的原始输入是单词,其输出是每个单词的嵌入,而不是多种类型的对象。

PROBLEM DEFINITION

THE METAPATH2VEC FRAMEWORK

异构网络嵌入:metapath2vec

为了模拟节点的异构邻域,metapath2vec引入了异构skip-gram模型。为了将异构网络结构合并到skip-gram中,我们提出了异构网络中基于元路径的随机游走。

异构skip-gram

基于元路径的随机游走

基于元路径的随机游走,以生成能够捕获不同类型节点之间的语义和结构相关性的路径。

将节点的异构邻域函数形式化,在多种类型的节点的上下文中实现基于skip-gram的网络概率最大化。
元路径定义。异构信息网络中许多数据挖掘任务都可从元路径的建模中获益。
展示如何使用元路径来指导异构随机游走。walker的移动是基于预定义的元路径。此外,元路径通常以对称的方式使用,也就是说,它的第一个节点类型V1和最后一个节点Vl相同,便于其对随机游走者的递归引导。
基于元路径的随机游走策略确保了不同类型节点之间的语义关系可以正确地合并到skip-gram中。例如,在传统的随机游走过程中,如下图,
在这里插入图片描述
节点a4从节点CMU转移来,节点a4上的walker的下一步可以是它周围的所有类型节点-a2、a3、a5、p2、p3和CMU,但在元路径‘OAPVPAO’下,根据该路径的语义,walker考虑到之前在节点CMU上的步骤,会偏向于论文节点。

metapath2vec++

metapath2vec在构造节点v的邻域函数时,基于它们的类型来区分节点v的上下文节点。但是,它忽略了softmax中的节点类型信息。换句话说,为了在给定节点v的邻域内 推断出上下文的特定类型,metapath2vec鼓励所有类型的负样本,包括同类型节点以及异构网络中其他类型节点。

异构负采样

进一步提出metapath2vec++,其中softmax函数相对于上下文的节点类型进行了规范化。
metapath2vec ++为skip-gram模型的输出层中的每种类型的邻域指定了一组多项分布。在metapath2vec和node2vec / DeepWalk中,输出多项分布的维数等于网络中的节点数,但是,在metapath2vec ++的skip-gram中,类型t节点的多项分布维数由t型节点的数量决定。
受PTE的启发,采样分布也由目标预测的邻居的节点类型指定。
通过使用随机梯度下降算法优化模型。

实验

数据 AMiner Computer Science (CS)、 Database and Information Systems (DBIS) 。数据集和代码都是公开的。构建两个异构网络。

实验设置

将metapath2vec和metapath2vec ++与几种最近的网络表示学习方法进行比较:DeepWalk / node2vec、LINE、PTE。使用一些相同的参数外,还改变了它们中的每一个并固定其他方法,来检查所提出方法的参数灵敏度。
大多数基于元路径的工作中,在异构学术网络中最常用和最高效的元路径方案是“APA”和“APVPA”。我们发现这种简单的元路径方案“APVPA”可以导致节点嵌入,可以推广到各种异构的学术挖掘任务,表明它适用于学术搜索服务的潜在应用。
评估了不同方法在三种经典异构网络挖掘任务中学习的潜在表示的质量,包括多类节点分类,节点聚类和相似性搜索。

多类节点分类

使用第三方标签来确定每个节点的类。首先,我们将Google Scholar中场地的8个类别与AMiner数据中的类别进行匹配。在所有160个场地(每个类别20个×8个类别)中,其中133个成功匹配并相应标记(大多数不匹配的场地是预印场地,如arXiv)。其次,对于在这133个场地发表过的每位作者,他/她的标签被为他/她的出版物的大部分类别,并且通过在可能的类别中随机选择来解决平局。
节点表示是从完整数据集中学习的,然后使用上面标记的节点的嵌入作为逻辑回归分类的输入。在分类实验中,我们将训练集的大小从5%变为90%,其余节点用于测试。我们重复每次预测实验十次,并根据Macro-F1和Micro-F1得分报告平均表现。
参数敏感性 在基于skip-gram的表示学习模型中,存在几个常见参数。我们对这些参数进行了metapath2vec ++的灵敏度分析。
walks per node w,walk length l,dimensions d,neighborhood size k

节点聚类

通过每种方法学习的嵌入被输入到聚类模型。在这里,我们利用k-means算法对数据进行聚类,并根据归一化互信息(NMI)评估聚类结果

相似性搜索

使用余弦相似性来确定查询节点与其余节点之间的距离(相似性)。

可视化

metapath2vec++能够自动组织这两种类型的节点并隐式地了解它们之间的内部关系,这两种类型的节点清楚地位于两个单独的直列中。metapath2vec不是将两种类型的节点分成两列,它能够将每个场地及其相应作者的每一对紧密地分组。但两个模型都是将来自相似领域的节点安排的近一点,不相似领域的节点则远离。
异构嵌入能够揭示不同域之间的相似性。

可扩展性

在大(网络)数据时代,有必要证明所提出的网络嵌入模型的可扩展性。使用与word2vec和node2vec相同的机制

相关工作

xx等人提出word2vec框架 - 一个双层神经网络 - 来学习自然语言中单词的分布式表示。基于word2vec,xx提出节点的“上下文”可以用它们在随机游走路径中的共现来表示。为了使节点的邻域多样化,xx提出了有偏差的随机游走者 - 宽度第一和广度第一搜索程序的混合 - 通过网络产生节点路径。在生成节点路径的情况下,两个工作都利用word2vec中的skip-gram架构来模拟路径中节点之间的结构相关性

标签:异构,skip,路径,Scalable,网络,Learning,Heterogeneous,节点,metapath2vec
来源: https://blog.csdn.net/alanlala/article/details/100572848