【摘 要】
:
图是一种强大的建模相互关联事物的工具。图结构的数据无处不在,如社交网络、科研合作网络、知识图谱等,对图数据的挖掘一直是学术界关注的研究前沿具,在现实中具有重要且广泛的应用价值。随着深度学习在图数据上日益广泛而深入的应用,本文围绕图数据挖掘的关键问题,建立了一个新颖且强大的图上的归纳式神经元算子学习框架。通过将图挖掘的问题转化为一个图上的归纳式神经元算子学习问题,很多原来棘手的问题都得到了有效的解决
论文部分内容阅读
图是一种强大的建模相互关联事物的工具。图结构的数据无处不在,如社交网络、科研合作网络、知识图谱等,对图数据的挖掘一直是学术界关注的研究前沿具,在现实中具有重要且广泛的应用价值。随着深度学习在图数据上日益广泛而深入的应用,本文围绕图数据挖掘的关键问题,建立了一个新颖且强大的图上的归纳式神经元算子学习框架。通过将图挖掘的问题转化为一个图上的归纳式神经元算子学习问题,很多原来棘手的问题都得到了有效的解决。具体的,本文做了如下工作:(1)建立了基于“编码-解码”的图上的归纳式神经元算子GRAINO学习框架。其中编码器将图信息编码到低维向量空间中,每个节点或者子图都被表示为一组向量,一般设计为多层GNN结构;解码器直接跟任务相关。算子通过在合适的模拟图上充分训练,学习好的算子可以迁移到规模更大甚至不同领域的测试图上。本文进一步通过三个具体的图挖掘问题展示这一学习框架的通用性和有效性,即通过合理的设计算子结构并进行充分的学习,就可以在这些问题上从新的视角下取得更好的表现;(2)提出了预训练一般图神经网络的GPT-GNN算子。目前图神经网络应用的一个主要限制在于充分的训练需要大量的标签信息和领域特定的输入特征,预训练是很好的解决途径之一。GPT-GNN编码器设计为多层GNN模型,解码端设计了三个自监督任务训练算子捕捉不同粒度的图结构信息。我们用DCBM模型产生不同结构特点的合成训练图,算子通过训练使得编码器(经过预训练的GNN模型)能够提取图的一般性结构特征,从而为下游任务提供良好的特征输入。在真实网络上节点、边及整图的分类任务上的结果均表明GPT-GNN在预训练GNN上的有效性;(3)提出了高效识别大图高介数节点的Dr BC算子。本文首次将图的节点介数计算问题转化为一个学习问题,并基于GRAINO框架设计了针对问题特点的编码器和解码器。编码器设计为多层GNN模型,将节点编码为一组低维向量,并嵌入和其介数计算相关的结构信息?解码器设计为多层感知机,将节点向量解码为反映其介数排序的分数值。算子在小规模的PLC模型产生的模拟图上训练,然后可以迁移到更大规模的测试图中。模拟图和真实图的大量结果表明Dr BC可以在没有损失太多精度的前提下大幅度提高计算速度,从而为大图上高介数节点的快速识别提供了一个可行的选择。同时,Dr BC也是GNN在图上的节点介数计算问题的首次应用,对于GNN到底能够捕捉多少图结构信息以及如何做到提供了新的思路;(4)提出了图最优攻击的FINDER算子。图的最优攻击问题是一个NP难的图上的组合优化问题。本文首次从学习的角度来探索这一问题。基于GRAINO的“编码-解码”结构,FINDER将编码器设计为多层GNN模型,将节点和子图编码为向量,用以表示动作(节点)和状态(子图);解码端采用神经张量网络将动作和状态向量解码为动作选择的收益值。采用Q学习的方式训练更新算子参数。同样地,算子在小规模BA模拟图上训练,在大规模真实网络上测试。实验结果表明FINDER在效果和性能上均打败了现有的最好结果。更重要的,FINDER本身也非常通用,只需要修改奖励函数,就可适用于一大类的图攻击问题。本文的工作是深度学习在图数据领域的发展和应用,为图数据挖掘提供了一个新的通用且有效的工具,相信在未来可以为更多的图相关的问题的研究提供新的视角和手段。
其他文献
随着互联网技术的飞速发展,人类社会可以利用的数据正以前所未有的速度增长,宣告了大数据时代的正式到来。作为数据分析的重要工具之一,复杂网络理论自诞生以来就受到了来自各个领域研究学者的广泛关注,特别是随着在线社交网络的兴起,利用复杂网络理论分析用户的行为模式已体现出其巨大的经济和社会价值。研究复杂网络的主要目的就是为了解决网络上的动力学问题,本文基于复杂网络传播动力学相关理论,分别开展了关于影响力极大
线性方程组的求解开销往往是实际复杂应用在数值模拟时的主要开销。预处理迭代方法是求解大规模稀疏线性方程组的常用求解方法,常见的预处理方法和迭代方法往往聚焦于方法的通用性能而缺乏对于实际应用数值模拟特征的考虑。惯性约束聚变是一类强非线性、强间断、大变形、多介质的辐射流体应用,其在数值模拟时表现出各种特征:一方面,在模拟的一段时间内,一些物理量在局部计算区域内发生剧烈的变化,而在其他区域内变化不大;另一
信息流是系统动力学分析中的一个重要概念,在系统科学、气象学、神经科学、海洋学、生物学、网络动力学、金融经济学、统计物理学、湍流、数据科学以及人工智能等众多学术领域中有着广泛的应用和研究。本文在已有的单因素信息流基础上,研究了高维动力系统多因素信息流的统计特性以及应用,并从信息流的角度出发,提出了基于信息流的多输出响应全局灵敏度分析方法。本文的主要工作和创新点如下:1.建立了关于绝对熵的多因素信息流
随着科学技术日新月异的发展,尤其是以互联网技术为代表的网络时代的到来,各应用领域涉及的优化问题数据规模愈加庞大。梯度类算法作为求解优化问题的一类普适性算法,因其低复杂度的计算形式和较为完善的理论基础得到了广泛的应用。研究新型梯度类算法具有重要的理论价值和应用前景。一方面,数据时代应用发展中对高效优化算法的追求要求我们设计高效的梯度算法格式;另一方面,新型梯度算法投入到实际应用中会遇到理论保证上的挑
当原子内层电子电离产生高激发态的电子空穴时,空穴态的原子可通过电子衰变过程退激发。俄歇和原子间库仑衰变(ICD)都是由电子关联引起的电子衰变过程。在稀薄环境下,俄歇衰变的研究主要基于单粒子理论。而在稠密环境下,环境效应不可忽略,ICD过程是一种高效的电荷重分配过程。本文主要围绕ICD和俄歇衰变等电子衰变过程展开研究。具体研究内容如下。首先,本文基于相对论条件下的扭曲波近似理论计算了Rb+(3d-1
量子参数估计研究如何从量子系统中估计出参数,因而在基础科学研究中具有重要意义,对实际应用也具有指导作用。量子态层析主要研究如何通过合适的测量和重构算法推断量子系统状态,是了解量子态生成源的关键技术。本文研究了量子系统中未知参数和未知状态的估计问题,主要内容可以归纳为以下四个方面:1)在测量算子受约束的情况下,研究了使用两步方案估计出单qubit量子系统中的待估参数。首先通过考虑含有待估参数的中间变
临近空间一般指距地面20km~100km的空域。长期以来,由于临近空间的应用需求远不如其下层的对流层和其上层的热层高层空间,同时临近空间大气探测困难,资料匮乏,因此,国内外对临近空间环境特征及其变化规律研究十分薄弱。近年来,随着临近空间高超声速飞行器等平台的研发和应用,临近空间环境已成为大气科学研究的一个新兴领域。本文基于气象卫星、气象火箭和探空气球探测资料,利用对比分析等方法,对临近空间大气环境
基于本征正交(POD)分解的四维集合变分同化方法(POD-4DEnVar)是一种先进的混合同化方法,该方法通过POD分解将集合卡尔曼滤波同化方法和四维变分同化方法有机结合,不仅使背景误差协方差具有流依赖的特点,同时不需要求解预报模式和观测算子的切线性伴随模式,在卫星资料同化中具有巨大的应用潜力。本文基于WRF(Weather Research and Forecasting model)模式,以C
飞秒强激光在大气中传输,由于克尔自聚焦效应和等离子体散焦效应两者之间相互竞争而达到动态平衡时,会形成长距离传输的光丝结构。飞秒强激光大气传输成丝过程伴随着丰富的物理效应,其中就包括由激光脉冲能量沉积导致的热沉积效应。光丝热沉积效应在触发局地气流扰动、促进过冷水滴冻结并沉降和在云雾中清理形成高透射通道等方面有着重要作用,对这些相关现象的机理开展研究,有望促进我们对特定环境下云和降水过程的认识。因此,
绕岛环流理论来自于Sverdrup理论,被广泛用于估计和分析通过岛屿之间或岛屿与海盆边界之间通道的输运情况。本文首先对所研究的环流理论来源情况进行了简单的回顾,介绍了绕岛环流理论的发展历程和研究现状。然后从动量方程出发,通过对方程进行深度积分,系统的推出了绕岛环流理论,并分析了绕岛环流理论的适用范围及优缺点。对于绕岛环流理论只考虑一个岛屿的情况,本文对此进行了推广。首先考虑了两个岛屿的情形,分别就