【摘 要】
:
数据聚类是数据挖掘领域的重要研究分支之一,是对无标签信息的数据进行归类的一种方法。由于没有标记信息的指导和监督,目前的主流聚类思想是首先利用数据内在的相互关系无监督的学习数据的有效低维表示,以提高不同类簇数据间的区分能力,再将这些低维表示送入经典聚类算法得到聚类结果。传统的低维表示学习模型大多针对具有单一视图的数据。但是单视图在数据描述上的片面不能充分的发挥表示学习模型的潜在能力,进而影响后续聚类
【基金项目】
:
国家自然科学基金(62071157); 黑龙江省青年创新人才计划(UNPYSCT-2018203); 黑龙江省自然基金优秀青年基金(YQ2019F011);
论文部分内容阅读
数据聚类是数据挖掘领域的重要研究分支之一,是对无标签信息的数据进行归类的一种方法。由于没有标记信息的指导和监督,目前的主流聚类思想是首先利用数据内在的相互关系无监督的学习数据的有效低维表示,以提高不同类簇数据间的区分能力,再将这些低维表示送入经典聚类算法得到聚类结果。传统的低维表示学习模型大多针对具有单一视图的数据。但是单视图在数据描述上的片面不能充分的发挥表示学习模型的潜在能力,进而影响后续聚类任务的性能。随着数据爆发式的增长趋势,数据的表达形式也不断在发生变化,产生了一种称作多视图的数据描述方法。多视图数据是指同一对象可以采用不同的形式对其进行描述,每种形式称为数据的一个视图,该类描述形式蕴含了数据在多个层面的多重信息,可对数据进行更全面的表达。因此,采用多视图数据进行低维表示的学习能够解决传统单视图数据对模型学习能力的限制,获得具有完整特性描述的数据低维表示。然而,真实环境下由于许多客观因素常常导致获取的视图数据受到噪声干扰或发生特征缺失等不完备现象,造成现有多视图学习方法及其在聚类应用方面的性能下降问题。面向这一问题,本文围绕多视图数据的表示学习及其聚类应用展开,提出三种针对高维不完备数据的多视图学习方法,其具体的研究内容包括以下几个方面:(1)提出了一种基于相似性学习的鲁棒多视图学习方法。该方法通过在数据表示中引入低秩约束来弥补噪声和异常值的干扰,学习一个贴近于真实数据结构的数据副本,并将该副本用于鲁棒图的学习。此外,设计了一种多视图方案,通过从所有视图中动态的学习图来获取所有视图图的一致相似性。同时,一致相似性也可以用来传播来自其他视图的潜在信息,从而促进每个视图图的学习。最后,将上述两个过程合并为统一的目标函数,并交替优化获得全局最优解。在四个公共数据集上的实验结果证明,所提方法在相似性学习方面优于现有的大多数方法,且对不完备数据具有很强的鲁棒性。(2)提出了一种基于低秩张量的可靠多视图学习方法。考虑到由于特征缺失所引起的不完备数据学习问题。一方面,该方法将数据补偿模型和图学习放入统一框架中,利用数据补偿模型对缺损数据进行恢复,实现从重建数据中学习样本对间的近邻关系,弥补由于特征缺失对数据原始分布所带来的影响。另一方面,为了同时利用数据的多视图信息并保持近邻图的二维结构,引入张量分析,构造基于多视图的融合图学习约束,进一步捕获不同视图下近邻图间的高阶潜在关联性。此外,设计了一种有效的数值方案对所提目标函数进行求解,并保证了目标函数的收敛性。两种不完备数据的多视图聚类实验结果表明,该方法在多项性能指标和鲁棒性方面均优于当前主流的多视图聚类方法。(3)提出了一种双图下基于不完备数据修复的协同多视图学习方法。不同于当前主流的不完备数据恢复方法,该方法利用多视图数据所具备的一致性和互补性特点,从数据角度出发,直接对不完备数据进行数据值的恢复,使得后续聚类过程所使用的数据是完备且含有大量有效信息的。同时,采用多核协同训练来学习数据的鲁棒表示,并引入低秩张量约束来促进多视图的融合,使得用于聚类的融合图覆盖更多隐藏在多视图数据中的高阶相关性。将上述过程放入一个联合学习框架中,使得变量在迭代过程中可相互促进、传播有效信息。此外,为了有效地对所提方法进行求解,设计了一种交替优化的求解方案。在四个可视化数据集上的实验结果证明,该方法在不完备数据聚类应用上具有明显的优势。
其他文献
随着工业领域的飞速发展与不断进步,起重机用电机在工业生产以及物料的装卸与搬运中扮演着不可或缺的角色。传统起重机用电机使用三相感应电动机,存在启动转矩较小,低速运行时效率较低等缺点,不能满足现代起重机行业的需求。开关磁阻电机具有调速范围广、起动转矩大以及动态响应好等优点,可以适用于频繁启停,多种负载运行状态的场合,本文主要对起重机用开关磁阻电机电磁场、流体流动和温度分布开展深入地研究,主要工作内容如
在新发展阶段、新发展理念、新发展格局的战略要求下,国家总体对于工程建设项目进程不断推进,工程建设项目投资金额与项目数量迎来较大增长。物资采购是支持整个工程建设进度的关键因素,然而工程项目的建设周期长,物资使用量大且价值较高等特殊性,使物资采购充满了一系列的风险,直接影响着工程项目物资采购的顺利实施。ZJS工程公司是一家工程建设企业,公司在工程项目建设中,供应商供货质量良莠不齐,频繁变化的原材料价格
随着国家能源战略结构的调整,传统燃油汽车向绿色化新能源汽车转型是当下及未来长期面临的难题。氢能具有零排放、能量转换效率高、易获取、可再生等一系列优点,因此燃料电池汽车逐渐成为了未来新能源汽车的发展方向。但是受到燃料电池现有技术的制约,燃料电池汽车的商业化普及仍然有很多阻碍。目前燃料电池存在的短板包含:输出电压电流特性偏软、动态响应速度慢、启动速度慢、不能吸收制动能量。在燃料电池汽车动力系统中增加辅
钠元素因丰度高、价格低而在钠离子电池方面的研究备受关注,但因钠离子的原子半径比锂离子更大,导致以石墨作为负极的层间距无法支持钠离子的顺利脱嵌。以Bi2Se3为代表的拓扑绝缘体材料,因其特殊的表面态而具有优异的表面导电性,虽然其输运性质备受关注,但是应用领域却有待拓宽,且其用于电化学储能领域的研究鲜有报道。Bi2Se3是由范德华力相结合的二维层状材料,其层间距远高于石墨,结合其表面高导电特性,有望成
公路裂缝病害是常见的路面问题,如果不及时发现并处理,容易引起交通事故。目前路面裂缝检测主要由人工完成,缺点是成本高,且检测效率低。因此,将无人机应用到路面的日常巡查工作中,其优点为操作简单,灵活高效,能够有效地减少巡查盲点。目前航拍图像中的小目标检测技术一直以来都是检测领域中的难点,原因是在低光照下,路面图像细节丢失严重,轮廓模糊,图片背景环境复杂,目标尺寸小。本文利用深度学习的检测方法对路面裂缝
我国是农业大国,日常生活处处离不开农业,但农作物病虫害对农业有着巨大影响,在保障环境污染降低和粮食质量高的同时,对农作物病虫害进行防治是农业工作人员很重要的一项工作。但地球上农作物种类数不胜数,农作物患病种类也十分复杂,在田间的工作人员并不能高效准确的将农作物患病种类判断出来,如果不能准确的判断农作物患病种类,就会耽误防治,导致病虫害面积扩大,影响农作物产量,因此判断农作物患病种类,及时进行防治是
<正>多发性内分泌腺瘤病1型(MEN-1)是一种常染色体显性遗传疾病,影响多个内分泌器官。受影响的器官包括垂体、甲状旁腺和胰腺。垂体促甲状腺激素(TSH)腺瘤是一种罕见的功能性垂体腺瘤,发病率约为百万分之一,占垂体腺瘤的0.5%~3%[1],是导致中枢性甲状腺功能亢进症的主要原因,临床上常被误诊为原发性甲状腺功能亢进症而延误诊治。随着影像学技术发展及超敏TSH测定方法的广泛应用,TSH腺瘤的诊断率
随着激光技术的不断成熟,由半导体激光器泵浦的单掺Tm3+晶体的全固态激光器因其结构简单,使用寿命长,光束质量好等优势,受到人们广泛的关注。本文以掺铥离子铝酸钇Tm:YAl O3(Tm:YAP)晶体为激光器增益介质,选取具有钙钛矿结构的锆钛酸铅材料来制备可饱和吸收体器件,分别对被动调Q模式和被动锁模模式下Tm:YAP激光器的输出特性展开深入研究。首先,对钙钛矿材料的微观结构和物理化学性质进行深入研究
永磁同步电机由于其结构简单、高功率密度、高可靠性等优势,已广泛应用在电动汽车、数控机床、机器人等各个领域。永磁同步电机是一个多变量、强耦合的非线性系统,控制难度较大,对控制算法的性能要求也较高。滑模控制方法由于结构简单、抗扰能力强等优点,而被国内外学者应用于永磁同步电机系统的设计,使得永磁同步电机控制系统的动态性能以及精度得以提升,是永磁同步电机主流控制方法之一。但传统的滑模控制方法无法抑制非匹配
随着人们生活水平的提高,更多人选择私家车出行,这无形中让城市交通陷入了一定的困境,导致人们常因为早高峰、晚高峰的交通阻塞问题而耽误出行,甚至导致交通事故的发生,因此建立便捷、高效智能的交通管理系统十分有必要。车辆目标的检测和分类是缓解交通问题的重要方法,也是智能交通中的重要组成部分,因此,本文以深度学习为基础,对于车辆目标的检测和分类进行研究,主要研究内容如下:针对车辆目标检测问题,本文选择SSD