论文部分内容阅读
现实中大部分真实系统通常都包含大量相互联系但类型各异的组成部分,大多数研究工作把这些复杂的系统简单地建模成为同质网(Homogeneous networks),而忽略了组成部分之间的复杂语义关系。近年来,越来越多的研究工作意识到真实网络中存在着相互关联的、复杂的、多种不同类型的实体,因此,将这些复杂系统建模成异质网(Heterogeneous networks,HNs)成为迫切需求。然而,异质网中包含大量不同类型的实体间的关联关系,如何利用异质网中的复杂语义关系以及融合异质网中各类信息面临巨大的挑战,主要体现在:1)面对海量数据的增长以及不同类型数据之间的关联关系的挖掘,如何对这些复杂实体建模成为亟需解决的关键问题。2)在大型的异质网络中如何对不同类型的数据进行融合以获得有效的信息,仍然缺少有效的解决方法。3)异质网中包含多种不同类型的顶点和顶点之间的链接关系,如何精确地利用这些复杂语义关系,仍然是当前异质网络研究工作中的热点和难点问题。针对上述异质网研究面临的挑战,本论文首先对异质网节点的表征学习进行研究;然后,结合深度神经网络对异质网络中高维结构的复杂数据进行处理;最后,在半监督学习任务中对所提出的模型进行验证。本论文主要研究内容和创新性工作如下:1.针对异质网中半监督学习标签不足、人工获得困难,并且异质网络不同类型实体之间语义复杂、难以捕捉的问题,首先采用基于规则的方法来扩展元图集合。该方法不仅能缓解训练标签不足的问题,并且有效地利用了先验知识,提高了分类性能;然后,提出一种新算法来融合扩展的不同元图语义信息和相关物体在语义矩阵测量方面的相关性质;最后,通过排列分布函数为异质网中的每个实体分配类别标签。通过在真实数据集上对提出的模型进行全面评测,实验结果显示,所提方法在异质网半监督任务上超过现有方法,并且在缓解训练标签不足以及语义表达方面的有明显提升。2.针对异质网中噪声和稀疏性数据处理以及异质网中半监督分类的“阻滞”问题,提出了带有稀疏系数的堆叠降噪自编码器和松弛策略模型来构建异质网的层次结构模型。首先,设计了带有稀疏系数的堆叠降噪自编码器。提出的模型可以增强堆叠降噪自编码器对有噪声和稀疏数据的处理能力。其次,基于Stacked Denoising Auto Encoder with sparse factors(SDAEf)模型,利用松弛策略来构建异质网中数据的层次结构。该模型有效地缓解了层次创建过程中的阻塞问题,并提高了异质网中的分类精度问题。最后,为了验证所提模型的有效性,利用真实数据集来进行评估。实验结果显示该模型可以快速的构建异质网的节点层次,并且对异质网中节点具有较高的识别度。3.异质网的一个有利研究工具是“元路径”,但是由于元路径的长度和表达远距离语义的有限性,元图的概念被提出。本研究使用带有权重的元图作为异质网的先验知识进行异质网的表征学习,并且考虑到图卷积神经网络缺少自身顶点权重学习的问题,提出了“自权重”的方法。首先,充分利用元路径的优点并且弥补元路径的不足,设计实现权重元图来更好地捕捉异质网中不同类型节点之间的语义关系。通过对图卷积神经网络中的每一个顶点增加“自权重”,来对图卷积神经网络进行改进。其次,把改进的图卷积神经网络模型和权重元图进行结合来学习异质网的节点特征,并且针对图卷积神经网络无法捕捉较远邻居的语义,提出了2-hop邻居来初始估计每个顶点的初始领域。最后,利用现实世界中多个真实异质网进行测试,并与目前流行的网络表征学习方法进行比较,在多标签分类任务和链接预测任务上,充分验证了所提方法的有效性。4.针对异质网中不同类型节点的邻居作用不同,并考虑到目标节点邻居的融合,本研究提出使用注意力机制、图卷积神经网络、Bidirectional Encoder Representations from Transformers(BERT)模型来提取异质网的节点特征。首先,为了提取局部邻居特征,并且学习不同邻居对于中心节点的重要性,采用了图卷积神经网络融合注意力机制。通过注意力机制有针对性地学习不同邻居之间的不同的作用。其次,为了学习节点特征的潜在分布关系,提出了新的对抗正则模型。该模型可以通过创建生成的顶点的潜在分布和先验知识之间的误差,来学习顶点特征的潜在分布。最后,为了实现异质网特征提取以及弥补注意力机制无法长距离提取数据特征的缺陷,利用图上的随机游走来获得随机生成的顶点序列,作为融合了图卷积神经网络的BERT的输入。通过在生物信息网络、社交网络、书目信息网络等进行实验,结果验证了方法的的鲁棒性和普适性。