论文部分内容阅读
网络通常用来定义复杂的数据关系,其节点表示实体,边表示实体之间的交互关系。真实世界中,网络的节点和边往往不是静止的,而是随着时间不断演化的,这样的网络称作时序网络。例如在社交网络中,其节点表示用户,边表示用户之间的交互关系,网络中用户的数量和用户之间的交互关系不是固定的,而是随着时间不断演化的。网络节点的特征表示是分析时序网络的重要方法之一,旨在从网络中提取具有表征力的特征,用于下游的链路预测、节点分类等网络分析任务。近年来,随着互联技术、社交媒体技术等不断发展,网络的规模不断扩大,给传统基于矩阵特征向量的谱聚类、矩阵分解等特征表示方法提出挑战。此外,网络中还包含着丰富的异构信息(如节点属性、离群值等),这些特点使得现有网络特征学习方法更不能很好地处理这类大规模网络,因此出现了基于神经网络模型的网络表示学习方法。网络表示学习(Network Representation Learning)即网络嵌入(Network Embedding),旨在为网络中的每一个节点学习一个低维的表示向量,该向量蕴含了网络的空间拓扑信息、时间信息和异构特征信息等,并能够应用于下游的网络分析任务,如链路预测、节点分类和社团检测等。大量研究证实:与基于浅层神经网络表示学习方法相比,基于深层神经网络的表示学习方法在提取高维非线性特征上更具优势,在后续网络分析任务中表现性能更好,因此本文研究基于深层神经网络模型的时序网络表示学习方法。本文研究内容和主要贡献总结如下:一,研究利用网络节点间二阶权重采样的时序网络表示学习方法。时序网络可以按离散的时间点把网络分成多个快拍(序列图),研究如何把网络的多个快拍合并成一个快拍进行有效的特征提取,以提高表示向量在后续任务上的性能。时序网络中,为网络的每一个快拍的每一个节点提取其空间拓扑结构关系能够作为该节点有效的特征表示。但是,现有的工作只考虑随机游走根据节点的直接邻居的权重来提取节点特征。真实网络中,一个节点的邻居的邻居同样拥有该节点有用的信息,因此应该联合考虑这些权重来提取特征。本文从网络节点特征采样角度出发,提出了时序网络嵌入模型:TT-GWNN。在该模型中,本文提出了根据二阶权重的随机游走采样算法(Second-order Weighted Random Walk Sampling Algorithm)来提取网络的空间拓扑特征和时间特征,该算法把网络快拍的一阶权重和二阶权重合并成一个权重图,并利用一个衰减指数分配更大的权重给离当前快拍更近的快拍。然后,根据该权重图为网络中的每一个节点提取特征。实验现象表明:该采样算法能够有效增加特征提取空间,在更稀疏的网络上效果更显著。然后采用图的小波神经网络(GWNN)来嵌入提取的特征。最后,通过链路预测实验证明了该方法的有效性。二,研究利用网络快拍间截断层次游走采样的时序网络表示学习方法。研究采用何种策略来有效地联合时序网络的多个快拍共同提取网络特征。时序网络中,当前快拍的空间结构关系是由先前快拍的空间结构关系演化而来,先前快拍中同样也蕴含了当前快拍的一些有用的空间结构信息,因此联合先前快拍为当前快拍提取空间结构特征非常有必要。本文从网络节点特征采样角度出发,提出了时序网络嵌入模型:ST-HN。在该模型中,本文提出了一个截断的层次随机游走采样算法(Truncated Hierarchical Random Walk Sampling)来提取特征,该算法为当前快拍的每一个节点随机地从当前快拍游走到先前快拍采样特征,并利用一个衰减指数分配更大的游走步数给离当前快拍更近的快拍。实验现象表明:该算法能够有效地捕获节点的演化行为。然后,改进先进的模型:高阶图卷积神经网络(Mix Hop)来嵌入提取的特征,改进的模型能够聚合多跳邻居间的空间结构特征和时间特征。最后,通过链路预测和节点分类实验证明了该方法的有效性。三,研究带属性的时序网络存在离群节点(Outliers)的时序网络表示学习方法。研究如何处理这些离群节点来减少对正常节点嵌入向量的影响以提高向量在后续任务上的性能。时序网络中,网络的节点还包含丰富的属性信息,这样的网络称其为带属性的时间网络。在带属性的时序网络中,一个节点的拓扑结构或节点的属性相似性可能偏离自己所属的社团,这样的节点称其为离群节点。相关研究表明:这些离群节点能够严重影响正常节点的嵌入向量在后续任务上的性能,然而在带属性的时序网络嵌入中,先前的工作并没有明确考虑这些离群节点。本文提出了一个基于自编码和解码并考虑离群节点的带属性的时序网络嵌入模型:TAOA。在该模型中,提出了一个自编码解码架构,该架构联合先前快拍和当前快拍为当前快拍的每个节点学习嵌入向量,在编码和解码过程中考虑了减小离群节点对正常节点嵌入向量的影响。在特征预处理阶段,提出了一个简化的高阶图卷积神经网络框架(Simplified Higher Graph Convolutional Mechanism)来合并属性特征到拓扑特征,增加了拓扑结构特征稠密性,降低了嵌入模型输入向量的维度,更有利于大规模网络分析。最后,通过链路预测和节点分类实验证明了该模型的有效性。