基于自编码的属性网络表示学习研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:jasmineonbridges
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息网络(如社交网络,生物网络和学术引用网络等)被广泛应用于描述事物之间复杂关系,这些信息网络通常蕴含着丰富的知识,通过分析这些网络能够创造巨大的商业价值和社会价值。然而这些信息网络的规模巨大,通常包含数百万个甚至数十亿个节点。因此,如何有效从网络中获取知识已经成为近年来学术界和工业界的研究热点,并在许多领域的各种新兴应用中起着至关重要的作用。网络表示学习旨在将网络中的节点映射到低维连续向量空间中,并保持网络的固有特性,以至于能够将所学特征部署和应用在传统机器学习算法中执行网络分析任务,例如,节点分类,节点聚类,异常检测等。现有的网络表示学习算法大多只关注拓扑结构、节点属性或社区结构的一个或两个方面,而没有将这三个方面的信息整合到一个统一的框架中。除此之外,现有方法没有充分利用和整合网络的拓扑结构和节点属性这两种描述节点不同方面的信息。为了解决上述问题,本文的主要工作和创新点包括以下几个方面:(1)本文提出了一种具有社区保护的属性网络表示学习方法ANECP(attributed network embedding with community preservation)。ANECP采用具有深层结构的自编码器来保留节点属性的一阶邻近度和高阶邻近度;使用全连接网络来提取社区结构中包含的社区信息,利用条件变分自编码器保留网络拓扑结构的一阶邻近度和高阶邻近度,并整合社区信息的影响。深度神经网络的使用可以捕获拓扑结构和属性信息中潜在的高度非线性;而社区结构的整合可以从中观角度解决数据稀疏性问题。因此,获得的节点表示可以对拓扑结构,节点属性和社区结构中的一致性和互补信息进行编码,使得所学到的特征表示具有判别性。(2)本文提出了一种多分量的属性网络表示学习方法MANE(multicomponent attribute network embedding)。MANE分别以图的形式表示网络的拓扑结构和节点的属性信息,以捕获节点属性信息的非线性流形结构。本文使用随机冲浪(random surfing)模型直接捕获图结构信息,而不是采用基于采样的方法来生成线性序列,因为基于采样的方法无法准确、完全地捕获节点的上下文信息,随机冲浪模型可以直接生成一个概率共现(probabilistic co-occurrence,PCO)矩阵,基于概率共现矩阵,计算正点互信息矩阵(positive point-wise mutual information,PPMI),即图的显式表示矩阵,它确保自编码模型可以捕获图中节点的高阶邻近度。此外,MANE还整合节点间的链接强度和语义相似度来建立成对约束,并引入基于成对约束的图正则来增强局部结构的一致性,从而提高节点表示的质量。(3)本文在6个真实的属性网络数据集上验证了ANECP和MANE模型的性能。ANECP模型和MANE模型的评估包括节点分类,节点聚类,链路预测和网络可视化任务等多方面。实验结果表明:ANECP算法和MANE算法相比于其它基线算法在节点分类、节点聚类、链路预测、以及网络可视化任务上均获得了最好的性能。
其他文献
蒙古及周边地区位于中亚造山带中部,是中亚造山带的核心区域,该地区构造运动活跃,是显生宙以来陆壳増生和扩张作用最为强烈的地区。对蒙古及周边地区的重磁资料和热结构进行分析研究,并结合该地区地质、地震资料,来揭示其地壳结构和岩石圈热状态,对深入认识蒙古及周边地区的断裂分布、地壳结构和热分布等具有重要意义。本文根据高阶重力场模型SGG-UGM-1研究了蒙古及周边地区的自由空气重力异常和布格重力异常的空间展
洞穴滴水是降水补给在包气带内部气-水-岩三相综合作用的结果。在包气带的内部除了存在着溶蚀孔隙、微裂隙和层面等扩散流介质,还存在溶蚀大裂隙和管道流介质。岩溶过程在引导地下水沿补给路径向排泄点渗流时,这个路径的选择是具有一定层次性的:连通较好的大裂隙和管道提供了主要流动路径,而岩溶发育程度低的小裂隙和孔隙是地下水储存和交换的主要空间。由于大多数岩溶地层和张裂隙的不均匀性以及渗透的多变性,使得不同水文地
气候变化背景下,流域水旱问题凸显,理解和掌握洪旱事件的发生发展状态对社会经济安全及危害防治具有重要意义。雅鲁藏布江地处世界水塔、生态脆弱的青藏高原,其干旱演变不但对当地社会经济具有重要影响,还牵涉到青藏高原水资源利用与跨境水安全,是一个亟需研究的问题。本文利用雅鲁藏布江流域32个气象站点19552017年的逐日气象资料,计算各站点的SPI指数,分析流域干旱的时空演变特征;利用Copula函数确定干
生态系统受全球气候变化的影响,森林生态系统作为生态系统的一部分,其与气候之间的关系密切而复杂。气候的改变直接影响到树木生理生态过程。关帝山位于吕梁山脉中段,处于北方中部暖温带半湿润半干旱过渡区,有完整的植被垂直带谱,植被保护良好,树木生长受人为干扰较小。另外该区在一定海拔范围内有以青扦(Picea wilsonii)和华北落叶松(Larix principis-rupprechtii)为优势树种的
揭示气候变化背景下自然生态系统的响应,是地理学、生态学和环境科学研究的热点。高山植被生长在气候极端恶劣、土壤极端贫瘠的环境中,对气候变化响应最为敏感,能够捕捉全球气候变化影响的早期信号。西南地区生物多样性丰富,是我国重要的生态屏障区,高山植被面积占中国高山植被总面积的三分之一,研究其在未来气候变化下的响应显得尤为重要,对如何在发展经济的同时维护区域生态安全水平具有重要意义。本研究基于MaxEnt模
本文分别将2-巯基苯并恶唑、2-巯基苯并咪唑、4-甲基-2-巯基苯并噻唑杂环化合物接枝到氯球聚合物基体上,制备了PS-MBO、PS-MBI和PS-MMBT三种新型杂环聚合物吸附剂,用于氯化介质中,从Pd(II),Pt(IV),Rh(III),Cu2+,Ni2+,Fe3+,和Zn2+的混合溶液中选择性回收Pd(II)。对最佳吸附pH值,最大吸附容量,混合离子分离条件等关键吸附分离参数进行了研究,对吸
作为Banach空间重要的一个组成部分—Musielak-Orlicz空间。其理论既为一般泛函分析提供了直观背景材料,又在许多领域中得到直接应用。例如在应用数学、物理学方面的研究都起到巨大作用。因此,通过学者们不断的深入挖掘其空间的特性,使得Musielak-Orlicz空间理论得到了重大的发展,并为今后的研究奠定了基础。本篇论文主要对Musielak-Orlicz序列空间和Musielak-Or
学位
中国常年遭受着外来物种的入侵,会对生态多样性造成破坏并影响农林业等经济方面的发展。在中国遭受的外来入侵植物中,紫茎泽兰是最典型的例子之一,目前国家已采取各种各样的方法来对其进行防控。检测作为紫茎泽兰防控过程中的关键步骤,如何准确地识别、检测定位出紫茎泽兰是亟待解决的问题。论文针对复杂背景下的紫茎泽兰数据集,提出基于深度学习的目标检测方法对紫茎泽兰进行分类和定位研究,所做的工作包括以下几个方面:(1
黄金不但在人类社会的经济活动中发挥重要作用,也广泛应用于电子、催化、电镀和燃料电池等工业领域。由于自然矿产资源的不断枯竭以及人们对黄金需求的不断增长,从低品位材料中回收黄金变得越来越重要。因此,研发从低浓度含金氯化溶液中高效提取金的技术具有十分重要的现实意义。溶剂萃取法从盐酸介质中萃取低浓度金需使用大量的有机溶剂。许多有机溶剂能够燃烧、挥发性强,使用有中毒的风险,还会对环境造成污染。针对溶剂萃取技
知识图谱作为海量数据的支撑技术,为搜索引擎、问答系统和推荐系统等应用提供知识服务,由实体以及实体之间关系构成的三元组是知识图谱的基础结构。为了丰富知识,传统的知识图谱补全方法以表示学习为基础,将实体和关系投射到向量空间,并通过向量之间的距离计算来构造更多的三元组。然而,现实世界中的知识在不断更新变化,这要求知识图谱能够及时增补有用的新知识。同时,数据中蕴含的知识也可以作为新知识的来源,对知识图谱补