访问【WRITE-BUG数字空间】_[内附完整源码和文档]
图节点邻近度用于衡量图上节点相对某一给定起始节点的相对距离。根据图 学习理论,邻近度较高的节点普遍具有较高的相似性。以节点分类任务为例,由 于节点邻近度的高低间接指示了图结构上节点间的相似关系,进而包含了各节点 的类别信息,故而可以使用节点邻近度计算结果进行神经网络的节点分类训练。
一、背景介绍
图,作为计算机科学领域中一类重要的数据结构,提供了一种抽象表示事物 之间关系的方法。图结构包含两类主要元素——“节点”和“边”,其中,“节点”常 被用作表示各种事物,“边”被用作表示事物之间的关系,由此抽象出现实世界真 实关系的表达形式,这对我们研究实际生活中复杂的关系网络提供了可能。尽管 另一重要的数据结构“树”也含有“节点”和“边”两种元素,但是,图结构比树结构 更具灵活性。图结构中节点的平等关系和自由的连边方式,使其可以表示出事物 之间的多种关系形式,但树结构的表达能力却会因为自身定义而受到限制。比如, 我们无法用树结构表示一个关系闭环,也很难在现实世界中找到一个占有绝对主 导地位的“根节点”。从这一点中,我们更能看出图结构在关系网络的表达方面具 有的天然优势。
由于图结构在关系表达方面的出色特性,我们常将其应用在多种实际场景中。 比如,在交通网络中,我们常用节点表示城市,边表示城市之间的道路,边上的 权重表示道路的长短,进而延伸出图节点间的最短路径问题等,以此提升路径规 划问题的效率。在论文引用网络中,我们常用节点表示论文,边表示论文之间的 引用关系,进而帮助人们梳理论文体系、辨识重要论文等。在生命科学中的蛋白 质运输路径研究领域,我们可以用节点表示蛋白质分子,用边表示蛋白质之间的 物质运输关系,进而帮助研究人员梳理蛋白质的活动规律,识别具有相似功能的 蛋白质等。在社交网络中,我们常用节点表示用户,用边表示用户之间的好友关 系,由此刻画出用户之间的亲疏关系,进而展开社区发现、相似用户推断、兴趣 产品推荐等领域的研究等。
近年来,根据图结构信息和节点和边上携带的特征信息进行表示学习与挖掘 的问题吸引了研究者的广泛关注,相关理论、算法和应用系统相继涌现,研究成 果日益丰富。但是与此同时,海量数据规模的复杂网络结构对现有的图表示学习 研究带来了艰巨的挑战。为了能有效获取属性异质图数据所携带的结构信息和属 性、特征信息,在进行属性异质图的表示学习与挖掘中,现有研究工作普遍会在 图信息传播阶段,将初始给定的节点、边的属性和特征信息按照图结构沿邻边进 行聚合,进而得到高质量的节点表示向量,再将节点表示向量放入神经网络训练 框架中进行训练。为了得到高质量的图信息传播结果,现有方法大多会选择一个 适合的图节点邻近度衡量指标,通过计算图节点邻近度间接获得图信息的传播结 果。但是,现有工作使用的图节点邻近度衡量指标各不相同,缺乏通用的节点邻 近度计算范式来指导图信息的聚合过程,从而难以宏观理解图传播过程的核心, 也不易提出通用的图信息传播优化算法,以统一提升所有图表示学习与挖掘过程 中的图信息传播效率。
二、算法概述
图节点邻近度用于衡量图上节点相对某一给定起始节点的相对距离。根据图 学习理论,邻近度较高的节点普遍具有较高的相似性。以节点分类任务为例,由 于节点邻近度的高低间接指示了图结构上节点间的相似关系,进而包含了各节点 的类别信息,故而可以使用节点邻近度计算结果进行神经网络的节点分类训练。 目 前 常用的 属 性 异 质 图节点 邻 近 度衡量指标 主要包 括 : Personalized PageRank(PPR)、heat kernel PageRank(HKPR)、转移概率(transition probability)、 Katz 等。由于不同的节点邻近度衡量指标可能会影响最后的预测结果,因此,目 前的研究工作普遍会根据具体的下游任务,选择计算最合适的邻近度衡量指标, 以获得图结构、属性信息的集成结果。所以,设计一个通用的节点邻近度计算范 式对统一不同的邻近度计算步骤大有裨益。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net