不平衡图的半监督分类研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:chenchenhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为一种描述事物与事物之间关系的数据结构,常常被用来表征复杂的数据关系。基于图结构的节点分类任务在社交、政治和生物工程等等多个领域均有应用。在实际应用中,为了充分利用未标注数据以及保持图型结构数据的完整性,图的节点分类任务通常采用半监督分类的形式。然而,由于受到数据采样偏差和其他客观原因的影响,标注数据在类别之间的分布往往是不平衡的。目前已有的图的半监督分类方法在不平衡数据集上的适应性比较差。大多数图神经网络方法完全未考虑类别不平衡的问题,在聚合特征信息的过程中没有区分多数类和少数类标注数据的重要性,易使得属于少数类的样本更可能被误分类为多数类。另外,一些深度图神经网络方法在信息聚合的过程中存在不同类别的节点特征趋同的问题,导致分类效果下降。针对图神经网络方法在聚合特征信息过程中不区分多数类和少数类的问题,本文提出了聚合尺度自适应的图神经网络方法ASAGNN,该方法根据节点与标注节点在图结构上的相对位置为不同的节点设计不同的聚合尺度,使得属于少数类的标注样本的特征信息有更多的机会被其较远的邻域节点使用,从而降低少数类被误分为多数类的可能。针对一些深度的图神经网络方法引起的特征不可区分的问题,本文提出了ClusteringGCN方法,该方法根据节点的原始特征对原始图进行聚类,并对子图和原始图分别应用GCN模型的图卷积层。ClusteringGCN方法增强了节点的原始特征在分类过程的作用,保证聚合特征后的节点特征的可区分性,达到减缓过度平滑的目的。此外,本文尝试将常用的处理不平衡数据集的方法应用到不平衡图的半监督分类问题中。本文提出了图过采样方法,该方法为少数类生成新的样本点来优化图的结构,并利用代价敏感技术来改进图的半监督分类模型。为了验证上述方法的有效性,本文在Cora、Citeseer和Pubmed基准数据集上进行实验。实验结果表明ASAGNN方法和ClusteringGCN方法优于多种常用的方法;图过采样和代价敏感技术的应用可以有效提高半监督分类模型在不平衡图上的性能;尤其结合代价敏感技术的ASAGNN方法在大多数数据集上的表现都优于其他方法。
其他文献
随着人类对能源需求量的迅猛增长,可再生能源逐渐成为重要能量来源之一。环境的日益恶化与传统化石能源的不可再生性促进了风能和太阳能等可再生能源发电形式的持续快速发展
随着航天事业的发展,各种航天器承担的任务越来越多,使得航天器的构型越来越复杂,规模越来越大,许多航天器都带有多个大型挠性附件,这些挠性附件质量轻、刚度低、阻尼小,其弹
目的:研究Nur77与GRP78在糖尿病心肌缺血再灌注损伤敏感性增加中的作用,以及上述过程发生的潜在分子通路。方法:分别将正常、高糖培养基中培养的H9C2心肌细胞置于无氧条件下进行培养2h建立心肌缺血再灌注(I/R)模型,得到正常培养+缺氧诱导组(NC+I组,n=9)和高糖培养+缺氧诱导组(H/H+I组,n=9);正常细胞作为空白对照组(NC组,n=9)。用Annexin-V FITC/PI双染法
随着当今世界注重可持续性发展,人们更加看重生态环境的保护,电力行业的发展作为其他每个行业发展的基础,研究它的可持续性发展意义重大。从国家战略角度研究电力行业的可持
本论文基于密度泛函理论(Density Functional Theory,DFT)计算,采用Vienna Ab--initio Simulation Package(VASP)软件,系统地研究了Ni掺杂对Fe金属催化剂在CO2加氢反应合成C1和C2
当家装公司制定第二年预算时,仅用销售额时间序列或开单量时间序列这种单变量时间序列已无法满足需求,很多时候需要综合考虑多个因素的互相影响,因此矩阵型截面数据的时间序列应运而生。本文提出的矩阵型截面数据时间序列MARMA(p,q)模型在使用范围上较前人所提的矩阵型截面数据时间序列AR(p)更广泛,预测精度也更准。本文首先将矩阵型截面数据时间序列的相关概念进行了详细描述,并提出了矩阵型截面数据时间序列M
坛紫菜(Porphyra haitanensis)丝状体和海带(Saccharina japonica)配子体均是重要的种质资源,在坛紫菜丝状体和海带配子体在培育和保存过程中常受到细菌污染而发生病害,因此研究藻际微生物群落结构将有助于对致病微生物的了解。本文采用第二代高通量测序技术,研究了坛紫菜贝壳丝状体在育苗早期和育苗晚期的藻际细菌群落结构组成;坛紫菜自由丝状体以及海带配子体的附生细菌和不同温度
随着时代的发展,物质水平的提高,食品营养与健康越来越受关注。锌是人体自身不能合成的离子,只能从膳食中摄取的必需微量元素,在体内参与许多重要生命活动,所以锌的平衡与人
高超声速流场中,尤其是再入流场气动热的准确预测对其热防护系统的设计、外形优化设计及飞行轨道优化起到了极其重要的理论指导作用。飞行器在大气中的飞行速度达到高超声速
近年来,复杂网络的研究工作方兴未艾,单层网络理论对于现实网络的认识与理解有着无法避免的局限,事实上往往大多数现实网络系统都为相互作用的耦合系统,例如电力通信网络,港口机场网络等等。为确保现实耦合系统能够正常地运行,提高耦合系统的鲁棒性成为了我们关注的问题。本文主要研究了满足节点一对多的依赖关系的相互依存网络的鲁棒性,提出了满足多重依赖关系的双层非对称相互依存网络模型。其非对称的特征为,其中一层网络