【摘 要】
:
网络是一种普遍存在的数据表示形式,被广泛用于描述事物之间的复杂关系,例如社交网络、引文网络和通信网络等。对网络进行数据挖掘和分析能够获得许多有价值的信息,并有助于对网络的深层次理解。网络表示学习的目标是将原始网络中的节点进行特征提取,并将其映射到低维的潜在空间中,为下游任务提供高效的数据支持,进而提升机器学习算法的效率和性能。然而,现有的多数网络表示学习算法主要依赖于网络结构信息,较少考虑到网络中
【基金项目】
:
国家自然科学基金青年科学基金项目(No.61806072);
论文部分内容阅读
网络是一种普遍存在的数据表示形式,被广泛用于描述事物之间的复杂关系,例如社交网络、引文网络和通信网络等。对网络进行数据挖掘和分析能够获得许多有价值的信息,并有助于对网络的深层次理解。网络表示学习的目标是将原始网络中的节点进行特征提取,并将其映射到低维的潜在空间中,为下游任务提供高效的数据支持,进而提升机器学习算法的效率和性能。然而,现有的多数网络表示学习算法主要依赖于网络结构信息,较少考虑到网络中普遍存在的链路缺失情况;同时也经常忽略网络中节点所呈现的社区或类结构,导致得到的网络表示学习结果缺乏区分性。为解决上述问题,本文在现有的网络表示学习方法基础上进行改进,主要工作内容如下:针对现实场景中结构信息不完整的情况,本文提出了一种基于不完全信息的深度网络表示学习方法(Deep network representation learning method on incomplete information networks,DNRL)。考虑到节点属性信息较丰富且容易获得,将网络结构信息和节点属性信息进行动态融合生成转移概率矩阵,弥补结构信息不完整带来的过大损失,接着利用少量的标签信息来指导变分自编码器模型学习有区分性的节点低维表示,并捕获网络数据中潜在的高度非线性特征。在Cora、Citeseer和Wiki三个真实网络数据集上进行了节点分类和链路预测实验,结果表明本文提出的模型具有较高的有效性和鲁棒性,即使在网络链路稀疏的情况下,也能学习到高质量的节点表示。针对传统表示学习模型与聚类任务分离,较少考虑网络中类结构的情况,本文在上述模型的基础上提出了一种无监督保持聚类的属性网络表示学习方法(Cluster-preserving attribute network representation learning method,CNRL)。由于数据规模化带来的计算和存储压力,在结构和属性信息编码阶段采用球树算法进行优化,之后在变分自编码器的潜在特征部分添加聚类模型对网络进行约束,通过反向传播优化网络,从而得到同时保留属性网络潜在聚类结构和节点近邻结构的节点低维表示。在Cora、Citeseer和Wiki三个真实属性网络上的实验结果表明,本文提出的模型能够有效提高聚类任务的精度,在可视化任务中能更清晰地反映节点的团簇关系。
其他文献
准确客观地衡量科研学者的学术水平是一项至关重要的任务,目前各种基于图的排名算法如Page Rank算法等,已经被广泛应用在同构网络中,针对单一类型实体进行排名,但不适用于异构网络。虽然科学排名算法发展迅速,但仍有一些问题值得进一步研究。第一个问题,传统的算法都是应用于同构网络中,可是新的研究已经证明,使用混合或异构网络的排名效率更高。第二个问题,以往的研究只考虑了研究者的平均绩效,而忽略了研究者的
无重叠的序列模式挖掘是序列模式挖掘的一种重要挖掘方法,不仅能够灵活地表达用户的需求,而且满足Apriori性质,运用该性质还能够避免很多无效的计算,从而提高挖掘的性能。然而现有的算法并没有考虑用户感兴趣的属性,导致挖掘结果中包含了大量用户并不关注的频繁模式。为了解决这一问题,本文研究了无重叠的三支序列模式(Nonoverlapping three-way sequential pattern,NT
遥感图像技术的发展促进了农业生产、预防自然灾害和军事预警等众多行业的发展。遥感图像目标检测是遥感图像解译的重要任务之一,是指在图像中准确地找到某类目标的位置。其输入为一幅遥感图像,输出为被检测目标的类别信息和坐标信息。遥感图像的尺寸往往是巨大的并且需要极高的检测响应速度。随着大规模的集成运算群的发展,使用先进的计算机技术处理遥感图像成为完成遥感目标检测任务的必要方法,故而针对遥感图像的目标检测算法
近年来,随着专利数量的日益庞杂,从海量专利中获取有效信息已愈发困难,在此背景下,用于挖掘有效信息的推荐算法已逐渐应用到专利领域中。然而,作为推荐算法中的关键技术,文本聚类算法在推荐系统的应用过程中存在一定不足。首先,作为聚类算法的输入表征,功效特征在专利中十分重要,如何精确提取专利中的功效信息是目前面临的挑战。其次,在专利聚类分析方面,基于IPC分类分析的方法是粗粒度的,无法与专利内容紧密结合,不
近年来,情感识别成为了人机交互领域的研究热点问题,通过人类情感表达时所产生的行为、生理和心理反应去量化、描述和识别不同的情感状态,根据情感表示模型利用音视频模态信息构建情感识别模型。情感是时序变化的,也是通过音视频模态进行表达的,在单模态情感识别虽然有了一定的研究成果,但音视频模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注。而音视频模态维度情感识别中需要考虑如何进行不同模态情感信息的
情绪对学生的二语和外语学习及其重要。自二十世纪七十年代以来,越来越多的研究者开始探索外语学习中的情绪问题。然而无聊作为表现最频繁的学业情绪之一,迄今并未得到像焦虑、愉悦或兴趣等其他情绪那样足够的实证关注,以农村中学为背景的研究就更为少见。为弥补前人研究不足,本文以控制价值理论为框架,旨在探索农村中学英语学习中的无聊现象以及当前在外语学习中无聊情绪的经历。具体研究问题如下:(1)农村初中学生在学习外
一次性条件下序列模式挖掘是一种间隙约束的重复序列模式挖掘,并已广泛应用于许多领域。但是目前一次性条件下序列模式挖掘忽略了项的效用(价格或者利润),从而导致一些出现频率低但用户关注度高的模式被忽略。为了解决这个问题,本文研究了一次性条件下自适应高平均效用序列模式(self-adaptive High-Average utility Oneoff sequential Pattern,HAOP)挖掘,
视盘是眼底视网膜图像中重要的组成部分之一,准确地分割视盘对病理性近视、青光眼等疾病的诊断具有重要的临床指导意义。精确分割视盘和视杯区域也是青光眼诊断中最基础的一步。本文分别提出了一种通用的视盘分割方法和一种专门针对青光眼数据集的二阶段视盘、视杯分割方法,具体内容如下:针对Unet分割视盘精度低的问题,基于Unet提出一种融合残差注意力机制的视盘分割网络RA-UNet(Residual attent
2016年以来,美国海关边境保护局在《1930年海关法》第307条的基础上,对涉嫌“强迫劳动”的产品发布多份海关暂扣令,其中多次涉及到中国产品尤其是新疆产品。受暂扣令影响的货物必须由美国进口商证明产品不涉及强迫劳动才可放行,未获成功证明的产品将被限期离开美国市场或被销毁。美国多份国内法案还直接认为新疆涉嫌强迫劳动,其他美国政府部门也对新疆相关人员或实体采取限制措施,例如美国商务部实体清单纳入了涉疆