其他分享
首页 > 其他分享> > 【论文翻译】异构网络的影响与相似性

【论文翻译】异构网络的影响与相似性

作者:互联网

异构网络的影响与相似性

摘要

在社会网络研究中,社会影响最大化和实体相似性是两个重要的正交课题。在同质网络上,社会影响最大化研究试图确定一个初始影响集,使信息传播最大化,而相似性研究则侧重于设计有意义的方法来量化实体的相似性。当异构网络变得无处不在,并且不同类型的实体相互关联时,我们观察到将两个方向合并在一起以提高它们的性能的可能性。事实上,我们发现一类节点之间的影响值和另一类节点之间的相似度得分相互加强,从而得到更好、更有意义的结果。

因此,我们引入一个框架来计算一类节点的社会影响,同时测量异构网络中另一类节点的相似性。首先,我们将目标异构网络(或称影响相似网络)解耦为三个不同的部分:影响网络、相似网络和它们之间的信息隧道。通过对影响分数和相似度分数的交换,计算出更精确的相似度和影响分数,从而提高两者的质量。在真实数据上的实验结果表明,该框架能够使影响最大化框架在影响网络中识别出更多有影响的种子,同时在相似网络中产生更多有意义的相似度。

关键词
影响,相似性,社交网络

1 导言

社会网络挖掘的两个突出技术是社会影响最大化和实体相似性分析。给定信息级联场景中的用户群体及其关系,社会影响最大化的核心是构建一个有意义的影响网络,确定网络中一组最有影响的节点,并通过这样一个社会网络最大化影响的传播相似性分析作为另一个蓬勃发展的研究方向,提出了基于网络结构和节点特征的节点相似性度量方法。虽然影响和相似性分析可以为类似的应用提供工具,包括信息检索、排序或推荐,但它们通常被认为是单独研究的正交技术,而且通常应用于同质网络。当异构网络日益普及时,我们注意到将这两种技术结合到一个框架中不仅是必要的,而且是有益的,因为我们可以使用一方的信息来校准另一方。

给定一组用户及其影响关系,社会影响最大化研究的最终目标是确定有限数量的影响者作为种子,从中最大限度地传播信息实体。首先根据这些关系构建用户的影响网络。在网络上开发了描述不同信息级联规则的算法来解释真实的级联现象。

以前,大多数此类研究假设级联网络是给定的,节点间的激活概率也是给定的[1,4],即每个节点的固定数或节点度的加权值。他们的重点是在不同的扩散模型下,如独立级联[1,4],线性阈值[4],如何设计最佳的算法来识别“有影响力”的用户。此外,他们还比较了这些算法在级联覆盖率上的性能,即给定网络中最终激活的人数。据我们所知,有两个重要的现象是以前的研究经常忽略的。第一种是,它们很少展示实际网络中由算法选择的种子质量。第二个被忽视的现象是激活概率的定义。在何种情况下用户会激活另一个,即传递信息,是整个级联过程的一个重要因素。然而,大多数其他工作只是假设概率是给定的,并在实验环境中随机分配这些概率。我们只发现了一个出版物[3]明确研究了如何计算这种概率,他们的工作是在一个完全不同的问题设置。我们的方法通过引入相似性度量来解决这两个被忽略的因素。在异构网络中,同一类型的两个节点之间的激活概率往往与其所连接的其他类型的节点有关。考虑到这些联系,将为我们提供更精确的激活概率模型和更好的影响最大化结果。我们还进行了详细的种子质量比较,以证明这些质量确实得到改进,我们的模型。

对于社交网络中的节点,研究界提出了许多对称或非对称的相似度度量,这些度量考虑了节点特征、链接特征和其他语义特征。同时,在同一类型节点或不同类型节点之间的同质或异质网络上定义了相似性度量。设计有意义的相似性度量的一个简单线索是定制定义,并根据应用程序的场景考虑更多信息。

在我们的例子中,由于网络的异构性,在计算一类节点的相似性时,我们应该将另一类节点的影响考虑到公式中。这导致了不对称的相似性公式。这种方法以前从未被研究过。正如我们在上一小节中所分析的,在异构网络中引入相似性来实现影响最大化可能有助于影响最大化的许多关键方面。此外,相似性度量从影响最大化方面获得了更多的定制信息,这也可能是有益的。我们的实验结果证实了这种互利关系

相似性计算和影响计算是相辅相成的,这促使我们研究如何将它们有效地结合在一个框架中。该技术在异构网络解耦的基础上采用了增强方案。更具体地说,我们首先将一个特殊的双类型异构网络定义为影响相似(IS)网络,然后根据其不同类型的节点之间的关系将其解耦为两个异构网络,在影响网络上实现社会影响的最大化,在相似网络上实现相似度量的期望。然而,这两个网络并不是完全分开的。它们之间有一个潜在的隧道连接,以便来回传递信息,从而提高性能影响和相似性分析。

我们的主要贡献总结如下。

2影响相似计算框架

2.1 IS网络及其解耦

IS网络是一种特殊类型的异构网络,其边缘特征对于不同的边缘类型具有不同的实际意义。我们已经观察到,它是通用的,足以捕捉不同类型节点的重要关系,并探索影响和相似性之间隐藏的强化。首先,对一般影响相似网络进行了形式化定义。然后,我们在下一小节中解释与我们的模型相关的必要概念。

定义2.1。(影响相似网络)IS网络是一个有向异构网络的两种不同类型的节点,四种类型的边缘与相关的边缘特征。为了便于展示,让VX是我们要研究的节点集,VY是用于相似性研究的节点类型集,其中。有四种类型的边连接不同类型的节点,。F是与不同类型的边相关联的特征向量。是一个变量向量,每个变量描述一个边eX的两个节点之间的影响分数。类似地,是另一类节点上的相似性分数的另一个变量向量。

给定一个IS网络,值得注意的是它是依赖于VX和VY分类的应用。在抽象层次上,IS建模的目的是提取有影响的初始种子,使社会影响在节点VX上的传播最大化,同时计算节点VY的相似度,使两个任务的结果相互增强。但是,在应用模型之前,应该将一种类型的节点固定为VX类型,将另一种类型的节点固定为VY类型,这样分类对于特定的应用程序是有意义的。

为了实现我们的目标,以获得更好的结果,这两个任务通过相互校准,我们提出了我们的框架分为三个步骤。我们现在介绍的是第一步,就是网络解耦。由于以往对影响或相似性的研究大多集中在齐次网络上,我们首先要将IS网络解耦为两个齐次网络,并在它们之间建立信息隧道。

定义2.2。(IS网络解耦)IS 网络解耦是一个映射在映射中,我们有

从上述定义可以看出,在解耦过程中,我们首先保留影响网络和相似网络的节点和边缘结构。即通过结构上去除边\varepsilon _{xy}\varepsilon _{yx}将IS网络分为两部分。然而,这些边实际上被保存为信息隧道:。我们称之为信息隧道,因为相似性和影响信息可以通过这些连接传递。应该知道是一个二部图,它只表示V_{X}V_{Y}之间的连接。因此,它的边没有权重。此外,E_{XY}E_{YX}互为补充。如果边a_{X}b_{Y}属于E_{XY},则b_{Y}a_{X}E_{YX}中。例如,在论文作者网络中,一篇论文由作者“写”实际上与作者“写”论文是相同的。图1说明了这种解耦过程。在下面的小节中,我们将结合影响相似性增强对传递的信息进行详细建模。

2.2最大限度地扩大对影响网络的影响

与社会影响最大化的最新研究类似,我们在影响网络上的任务是识别k个种子节点,从而使信息的传播最大化。z_{X}w_{X}的影响通常表现为z_{X}激活w_{X}的概率,换句话说,信息从z_{X}传递到w_{X}。本文采用经典的独立级联(IC)模型来模拟信息扩散。然而,我们提出了一个更细粒度的激活概率定义,而不是让每对节点上的激活概率都是从均匀分布中提取的相同值。因此,我们的设计是与IC模型相同的扩散过程,具有更细粒度的直接邻近激活概率。

h(u_{X},v_{X})表示u_{X}在独立级联模型中激活v_{X}的概率。图2显示了我们如何一步一步地定义h(u_{X},v_{X}),其中每个步骤的解释如下。

上述公式与IC模型中传统的激活概率的主要区别在于邻域间的激活概率。我们不使用均匀分布来绘制一个数字,并为影响网络中的每一条边固定它。除此之外,我们还根据每个边缘的节点与相似网络的连接以及这些连接在相似网络中的相互作用来校准它们的激活概率。最近,一项来自[3]的研究探索了如何调整边缘相关激活概率以实现影响最大化。然而,它不考虑来自另一个网络的相似信息,也不打算使用影响和相似信息的增强。

现在我们将讨论如何根据影响网络中的影响分数来定义相似网络中的相似分数。

2.3相似网络的相似度量

首先,我们要澄清的是,本文中的相似性是一个不对称的概念。两个节点的相似性得分可以是对称的,在许多应用中都具有有效的意义。不对称相似是对称相似的补充概念,因为在g(u_{Y},v_{Y})\neq g(v_{Y},u_{Y})的情况下,也存在许多其他实际情况。例如,在论文引文网络中,与其中一个引用B具有一定相似性的论文a并不一定意味着B与a具有相同的相似性。在社会网络中,实体的相似性也常常是不对称的,例如,歌曲在分享事件时类似视频的方式通常不同于视频类似于歌曲的方式。因此,我们以不对称的方式来模拟相似性。

给出了相似网络G_{Y}(V_{Y},E_{Y},F_{Y})中两个节点u_{Y} \in V_{Y}v_{Y} \in V_{Y},让g(u_{Y},v_{Y})u_{Y}v_{Y}的相似性。在定义两个节点的相似性得分时,我们通过考虑连接到两个节点的共同节点之间的相互作用,探索了一种基于相似性研究的最新链路的相似方法。SimRank本质上把两个节点的公共邻域作为相似度量的起点。它通过迭代过程,根据网络中其他节点的更新相似度值更新相似性。在有向网络中,通过考虑程度相似性和输出相似度,PRank进一步向前迈进。PRank也采用迭代过程,因为两个节点的相似性也取决于其他节点的相似性。

我们的相似度计算和PRank的相似度计算的主要区别在于两个方面。首先,除了基于链接的PRank分析外,我们还让另一类节点的影响值参与相似度计算。第二,当考虑两个节点的相似性时,对于一个节点的邻居集中的每个节点,我们取其在另一个节点的邻居集中最相似的节点,而不是像PRank那样计算成对的相似性。图3给出了一个示例,说明了整个相似度计算。A_{1}A_{2}分别是i_{Y}j_{Y}的入链路的节点集,B_{1}B_{2}是它们的出链路的节点集。在我们的模型中,g(i_{Y},j_{Y})g(a_{1},a_{2})g(b_{1},b_{2})有关。此外,正如我们看到的i_{Y}j_{Y}连接到影响网络中的节点(用圆圈表示),u_{X}v_{X}z_{X}w_{X}之间的影响也对g(i_{Y},j_{Y})有贡献。我们使用两个不同部分的加权和来合并来自相似网络和影响网络的信息来计算g(i_{Y},j_{Y})。第一部分是i_{Y}j_{Y}在相似网络中的相似性与其在相似网络中的相似性的加权和。第二部分是影响网络中i_{Y}的连通节点与j_{Y}的连通节点之间的影响。

形式上,i_{Y}j_{Y}之间的相似性定义如下。

这里h(z_{X},w_{X})z_{X}w_{X}的影响,I(i_{Y})和O(i_{Y})是i_{Y}的度内和度外邻居。

2.4 IS计算的迭代算法

在深入详细的计算之前,我们首先简要回顾一下我们的最终目标。出于许多实际需求,我们将异构网络简化为异构网络,我们希望计算影响网络上的影响最大化和相似网络上的相似性分析。我们已经观察到了在这两个任务之间传递信息的好处,从而可以提高这两个任务的结果质量。我们还为影响最大化目的制定了新的激活概率,为相似性分析制定了新的相似性度量。这两个公式都源于这两个领域的最新作品。

从等式1∽3中,我们知道对于每个个体的激活概率h和相似性得分g没有封闭形式的解,因为它们是非线性的、非凸的和相互依赖的。由于h和g是难以处理的,我们设计了一个迭代过程来逼近它们的值。我们还设计了修剪和阻尼机制来加速计算。整个算法如下。

3.评价

3.1数据集描述

我们以ACM数字图书馆的纸质馆藏[5]为例进行了网络检索。我们将论文引用网络视为相似网络。如果论文A引用论文B,我们知道A的作者对B的作者有影响,因此,我们也构建了一个作者关系的影响力网络。总的来说,相似性网络有217,335个节点和632,751条边,而影响网络有250,566个节点和1,486,909条边。相似网络和影响网络之间的边数为518,358。在实验中,我们将我们的模型分别与最先进的社会影响最大化算法[1,4]在影响部分和相似度计算算法[6]在相似度部分进行了比较。在激活模拟中,我们为我们的方法和两个基线设置了模拟时间R = 1000(如下所述)。对于红外模型,我们选择λ为0.5,σ为0.8。在实践中,我们的方法在10次迭代后收敛于g和h值。实验系统用JDK1.6、Eclipse在Java中实现,并在具有2.2 GHz和4GB RAM的四核CPU的机器上进行。

3.2比较种子质量在社会影响最大化中的作用最先进的集成电路模型

3.2.1基线描述

我们比较了两种基线方法。第一种是原始IC模型中分配激活概率的经典方法,即根据两个节点之间的边数统一绘制一个概率。尽管简单,它没有区分任何优势。我们将表明,借助于相似性网络信息,我们可以为这些边缘中的每一个分配更合理的概率,以便拾取更合理的“有影响力的种子”。因此,在我们的方法中,激活概率不是均匀分布的。为了进行公平的比较,我们将均匀分布的中位数控制为与我们分布的中位数相同。

我们还看到,由于我们的激活概率分布不均匀,激活路线从第一个基线到我们的方法发生了很大变化。通过与第一条基线的比较,我们将表明这种新的激活路径结构更加合理。此外,我们还想证明每条路径上激活概率的每一次分配也是合理的。因此,我们设计第二个基线如下。我们首先获得激活概率的分布。其次,通过遵循该分布,我们生成一个随机数作为每个边的激活概率。因此,这个生成的网络具有相同的路径结构和激活概率分布,但是每个边的分配不同。我们把它作为我们的第二条基线。由于该基线具有与信息系统相同的激活路径结构,但对于每个边缘都是随机的,因此其性能应该介于信息系统和原始集成电路之间,并且更接近信息系统,因为它是信息系统的变体。

3.2.2种子质量比较

在大多数社会影响最大化研究中,种子选择是其动机的来源。然而,很少有作品真正讨论过这些人是什么样的人。我们可以假设信息系统计算生成了更合理的种子。

图4显示了我们的种子列表和两个基线的平均G指数。除了整个区域影响网络,我们还分别提取了三个子区域内的作者关系,包括数据库和数据挖掘(DBDM)区域、信息检索、人工智能和机器学习(IRAIML)区域以及计算机体系结构和硬件(CAHW)区域。我们的方法在整个网络和子区域网络中实现了更好的性能。对于H指数,我们也有类似的结果,为了节省空间,我们选择不在这里显示。

3.3相似度计算与PRank模型的比较

我们使用k-medoids对相似网络中的节点进行聚类。由于我们有节点的相似性得分,我们将这些得分作为相似性度量插入到聚类方法中。目标是看哪组分数产生更高质量的聚类。我们使用结果聚类的紧密度作为质量度量。这里我们给出了从图5中的三个子区域相似性网络获得的比较结果。我们只显示一个子网,因为其他子网具有相似的性能。可以看出,信息系统方案产生的相似性分数始终优于恶作剧[6]。紧性由戴维斯-波尔丁指数定义。

4.相关工作

我们在本文中提出的是从一个独特的观察开始的,即结合社会影响和相似性分析可以通过信息交流相互受益。影响力最大化问题是社会网络的一个重要研究分支。影响力最大化的任务是在给定某个社交网络的情况下,选择一些种子用户尽可能广泛地传播某个信息[1,4]。然而,他们中的大多数人没有注意到如何获得激活概率,这是我们在本文中解决的问题的一部分。Amit等人[3]做了第一个工作来攻击这个公开的问题。我们的工作在两个方面与他们的不同。首先,我们不使用任何指导作为行动日志。其次,更重要的是,他们的工作没有考虑异构网络,也没有使用相似性度量来校准激活概率结果。社会网络上的相似性分析通常基于节点的公共邻居或链接属性,例如[6]与大多数相似性分析不同,我们从社会影响方面应用更多的信息来改进相似性度量,这在以前的相似性研究中是没有考虑的。

我们还注意到,有另一部作品研究了社会影响和相似性的完全不同的关系[2]。他们研究了人的影响力和相似性是如何相互影响的。换句话说,他们考虑同类节点在同构网络中的相似性和影响。在异构网络中,我们考虑一类节点的影响,以及另一类节点的相似性信息,反之亦然。

5.结论

我们观察到对泛在异构信息系统网络的影响和相似性一起建模的好处。我们为这种建模设计了一种方法,并使用大规模真实世界数据演示了两侧的举升。我们相信对信息系统网络的分析有着广阔的前景,因为社会影响和相似性研究是许多研究兴趣的两个组成部分,如聚类、分类和推荐。

标签:异构,翻译,网络,节点,相似,相似性,影响,我们
来源: https://blog.csdn.net/Mrong1013967/article/details/115293732