基于深度神经网络的异质网节点分类和表征学习研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:jmrys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实中大部分真实系统通常都包含大量相互联系但类型各异的组成部分,大多数研究工作把这些复杂的系统简单地建模成为同质网(Homogeneous networks),而忽略了组成部分之间的复杂语义关系。近年来,越来越多的研究工作意识到真实网络中存在着相互关联的、复杂的、多种不同类型的实体,因此,将这些复杂系统建模成异质网(Heterogeneous networks,HNs)成为迫切需求。然而,异质网中包含大量不同类型的实体间的关联关系,如何利用异质网中的复杂语义关系以及融合异质网中各类信息面临巨大的挑战,主要体现在:1)面对海量数据的增长以及不同类型数据之间的关联关系的挖掘,如何对这些复杂实体建模成为亟需解决的关键问题。2)在大型的异质网络中如何对不同类型的数据进行融合以获得有效的信息,仍然缺少有效的解决方法。3)异质网中包含多种不同类型的顶点和顶点之间的链接关系,如何精确地利用这些复杂语义关系,仍然是当前异质网络研究工作中的热点和难点问题。针对上述异质网研究面临的挑战,本论文首先对异质网节点的表征学习进行研究;然后,结合深度神经网络对异质网络中高维结构的复杂数据进行处理;最后,在半监督学习任务中对所提出的模型进行验证。本论文主要研究内容和创新性工作如下:1.针对异质网中半监督学习标签不足、人工获得困难,并且异质网络不同类型实体之间语义复杂、难以捕捉的问题,首先采用基于规则的方法来扩展元图集合。该方法不仅能缓解训练标签不足的问题,并且有效地利用了先验知识,提高了分类性能;然后,提出一种新算法来融合扩展的不同元图语义信息和相关物体在语义矩阵测量方面的相关性质;最后,通过排列分布函数为异质网中的每个实体分配类别标签。通过在真实数据集上对提出的模型进行全面评测,实验结果显示,所提方法在异质网半监督任务上超过现有方法,并且在缓解训练标签不足以及语义表达方面的有明显提升。2.针对异质网中噪声和稀疏性数据处理以及异质网中半监督分类的“阻滞”问题,提出了带有稀疏系数的堆叠降噪自编码器和松弛策略模型来构建异质网的层次结构模型。首先,设计了带有稀疏系数的堆叠降噪自编码器。提出的模型可以增强堆叠降噪自编码器对有噪声和稀疏数据的处理能力。其次,基于Stacked Denoising Auto Encoder with sparse factors(SDAEf)模型,利用松弛策略来构建异质网中数据的层次结构。该模型有效地缓解了层次创建过程中的阻塞问题,并提高了异质网中的分类精度问题。最后,为了验证所提模型的有效性,利用真实数据集来进行评估。实验结果显示该模型可以快速的构建异质网的节点层次,并且对异质网中节点具有较高的识别度。3.异质网的一个有利研究工具是“元路径”,但是由于元路径的长度和表达远距离语义的有限性,元图的概念被提出。本研究使用带有权重的元图作为异质网的先验知识进行异质网的表征学习,并且考虑到图卷积神经网络缺少自身顶点权重学习的问题,提出了“自权重”的方法。首先,充分利用元路径的优点并且弥补元路径的不足,设计实现权重元图来更好地捕捉异质网中不同类型节点之间的语义关系。通过对图卷积神经网络中的每一个顶点增加“自权重”,来对图卷积神经网络进行改进。其次,把改进的图卷积神经网络模型和权重元图进行结合来学习异质网的节点特征,并且针对图卷积神经网络无法捕捉较远邻居的语义,提出了2-hop邻居来初始估计每个顶点的初始领域。最后,利用现实世界中多个真实异质网进行测试,并与目前流行的网络表征学习方法进行比较,在多标签分类任务和链接预测任务上,充分验证了所提方法的有效性。4.针对异质网中不同类型节点的邻居作用不同,并考虑到目标节点邻居的融合,本研究提出使用注意力机制、图卷积神经网络、Bidirectional Encoder Representations from Transformers(BERT)模型来提取异质网的节点特征。首先,为了提取局部邻居特征,并且学习不同邻居对于中心节点的重要性,采用了图卷积神经网络融合注意力机制。通过注意力机制有针对性地学习不同邻居之间的不同的作用。其次,为了学习节点特征的潜在分布关系,提出了新的对抗正则模型。该模型可以通过创建生成的顶点的潜在分布和先验知识之间的误差,来学习顶点特征的潜在分布。最后,为了实现异质网特征提取以及弥补注意力机制无法长距离提取数据特征的缺陷,利用图上的随机游走来获得随机生成的顶点序列,作为融合了图卷积神经网络的BERT的输入。通过在生物信息网络、社交网络、书目信息网络等进行实验,结果验证了方法的的鲁棒性和普适性。
其他文献
随着可穿戴设备的不断普及,众多公司进入这一领域,使得市场竞争越发激励。因此公司在推出高品质产品的同时还须关注产品营销。在互联网蓬勃发展的今天,网络营销渠道已经成为
本论文首先概述了质量管理和执行力的相关理论知识及研究现状;然后以专家访谈和调查问卷的形式对A公司内部质量管理执行力情况进行调研;通过统计分析调研结果评估A公司在质量
在电子计算机产业这样的成熟市场中,竞争日趋激烈,产品利润日渐降低,而且由于信息安全的担忧,越来越多的政府采购倾向于使用国产配件的产品。在这样的背景下,中国市场上的跨
车辙是沥青路面常见的病害形式之一,车辙问题一直是道路工作者研究的重点问题。沥青混合料的抗车辙性能不能代替沥青面层结构整体的抗车辙性能,因此对沥青面层整体抗车辙性能
本文以消费电子企业A公司的质量追溯管理问题为背景研究了数据仓库在质量追溯管理中的应用。A公司是一家全球性的跨国企业,主要从事智能可穿戴设备的研发、生产和销售,业务遍
人才是社会组织发展的根本要素。社会组织人才的匮乏已经成为阻碍社会组织持续健康发展的短板之一,导致社会组织人才匮乏的重要因素是目前对社会组织从业人员的管理机制尚不
文章以现代汉语比较句为研究对象,以本体研究为主,附带考察比较句的对外汉语教学情况。全文共分为九章:第一章:总结比较句研究现状,分析归纳比较句现有研究成果和不足,明确本
随着信息化时代的快速发展,对呈现目标信息的图像质量要求日益提高,相应的成像技术也越来越多。常用的光学成像探测技术主要是通过目标的强度、光谱及空间状态等信息来实现成
泄洪雾化是水利工程高速泄洪时出现的一种水气弥散现象,伴随泄洪雾化产生的强风和强降雨会对水电站正常运行、边坡稳定、交通安全等造成较大危害。我国的高坝枢纽工程往往具
形式动词是汉语中较为特殊的一个动词次类。其主要的句法特征是,可以带双音节及物动词作宾语,并且双音节及物动词的受事只能置于形式动词之前,这是形式动词和普通动词以及代