基于主动学习的聚类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:signet886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类可以在没有监督信息的指导下,将数据划分成不同的簇,使得相似的数据尽可能在同一个簇中,而不相似的数据被划分在不同的簇中。“物以类聚,人以群分”,在模式识别、医学诊断、生物学等领域中存在着大量需要将数据按一定规则划分的场景。因此,聚类成为无监督学习中一个被广泛关注的问题,一些经典的方法如K-均值、谱聚类、子空间聚类也得到了广泛的应用。聚类方法尽管操作简单,适用性强,但是由于缺少监督信息的指导依然存在着鲁棒性和稳定性的问题。为了解决这些问题,半监督聚类试图引入少量的监督信息来提升聚类的效果。在聚类的过程中受到监督信息的指导,一些半监督聚类方法展现出优异的性能。然而,半监督方法的性能往往高度依赖于所使用的监督信息。现有的方法监督信息往往是事先给定的,这些方法在不考虑如何选择监督信息的情况下,可能会导致使用的监督信息是冗余的甚至不利于聚类,从而使半监督聚类的性能和适用性受到限制。为了解决以上问题,本文提出新的基于主动学习的聚类算法,本文的主要贡献如下:本文提出了基于集成的主动聚类算法。首先,我们观察到自步学习和主动学习两种学习策略的互补性,从而提出基于集成的主动聚类框架。在该框架中,我们可以评估出数据的难易程度,从而按照自步学习“循序渐进”的策略先学习简单的数据,再逐步学习困难的数据。同时,在此过程中我们引入主动学习去选择最具有价值的数据交给人工标注。利用尽可能少的监督信息,更大程度的促进模型的学习。通过将集成学习与主动聚类融合在一个统一的框架中,我们可以从基聚类中得到更优的聚类结果,并且通过大量的实验验证了该算法的有效性。我们进一步发现,在原始特征空间中对数据进行划分的传统聚类算法,可能无法挖掘内在的聚类结构。特别是在高维数据上,性能受到严重的限制。我们把深度学习引入到主动聚类中,将深度学习、聚类、约束选择融合到统一的框架中。在这个框架中,我们利用深度学习可以学习更有利于聚类的表示。随后,利用这些表示挑选更有价值的监督信息,这些监督信息再反过来促进深度学习的进行。将不同的任务构成一个相互促进的循环框架,最终获取更好的聚类结果。实验结果证明,在基准数据集上本文提出的方法在性能上优于其他聚类算法。综上所述,本文的研究跳出了传统的无监督和半监督聚类的框架。我们在聚类过程中引入了主动学习的范式,设计策略去衡量数据的价值并选择合适的数据进行人工标注。随后,使用这些标注来指导聚类。最终,通过实验验证了基于主动学习的聚类算法能够以尽可能小的标注代价来获取更好的聚类结果。
其他文献
机器异常声音检测是对现实工厂中的工业机器进行音频监控。它通过其运行时发出的声音的变化情况,从而进一步判断机器存在故障的技术。该项技术在安全监控、工业生产、故障诊断等领域都有着广阔的应用前景。近年来,随着现实工业场景中对提高安全性的需求,声音作为识别事件的关键因素之一。机器异常声音检测已经获得了越来越多的研究者关注。现阶段,机器异常声音检测的研究领域可以分为基于深度自动编码器和基于轻量化卷积神经网络
学位
近年来互联网金融蓬勃发展,因为其具有便捷高效等诸多优势,在吸引长尾客户和发展普惠金融方面能够弥补传统金融机构的缺点与空白,对传统商业银行盈利能力造成了一定的冲击,这给商业银行带来了强烈的危机感。本文结合作者的工作实践,分析了互联网金融发展对中行秦皇岛分行盈利能力造成的正负两方面影响,得出如下结论:互联网金融严重冲击了中行秦皇岛分行的存贷款利差收入,降低了盈利水平;同时体现了“鲶鱼效应”,倒逼中行控
学位
图像匹配作为视觉感知中的一个基础且关键的过程,一直是计算机视觉领域中的研究热点。现有的匹配算法主要围绕图像的局部特征展开,利用局部特征的可区分性和稳定性等特性建立特征匹配集合,但对于存在局部形变或视角变换的多物体图像以及具有光谱差异的异源图像,在匹配精度、鲁棒性方面仍存在一定的局限性。观察表明,针对多物体图像匹配,可通过挖掘匹配特征之间的局部一致性变换约束来确定正确匹配;而针对异源图像配准,应重在
学位
随着集成电路制造工艺的不断进步,芯片集成度与性能都获得了提升。然而,晶体管特征尺寸的大幅缩小也给集成电路的可靠性提出了巨大挑战。对于纳米级互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)集成电路,软错误是造成其故障的重要原因。在先进工艺下,纳米级CMOS锁存器等诸多器件对软错误中的多节点翻转(Multiple-Node Upset,M
学位
遥感场景分类(Remote Sensing Scene Classification,RSSC)是遥感图像领域的一个重要且活跃的分支。随着遥感技术和计算机科学技术的飞速发展,遥感场景分类在理论和实际应用中都取得了可喜可贺的成果。然而,由于遥感图像场景往往是由多种物体通过复杂多样的空间组合和关联形成的,所以RSSC依然面临着严峻的挑战。首先,除了全局信息外,局部特征对遥感图像的识别至关重要。由于CN
学位
近年来随着深度学习的发展,人体三维重建工作在神经网络的支持下,成为了新的研究热门,并涌现出了许多基于深度网络的方法,但这些人体重建工作往往要求在没有遮挡物的情况下对人体进行重建。然而,在现实生活中,由于人与物体的频繁交互运动,人被各种物体遮挡的情况是随处可见且不可避免的。当人体出现被遮挡的情况时,现有的方法往往不能够得到令人满意的重建结果。针对这个问题,本文提出了针对遮挡人体重建鲁棒性较好的基于多
学位
人脸面部表情是人类情感表达的重要方式之一。微表情是一种可以反应人内心真实情感的表情。在人们试图隐藏自己内心的真实情感时,微表情会自发的产生。微表情既无法抑制也无法模仿,可以作为判断人真实情感的重要手段。因此微表情在医疗健康,国家安全等方面具有广泛的应用前景。相比于宏表情,微表情的持续时间短,动作幅度低。这些特点导致通过人工对微表情进行检测和识别十分困难,因此对于自动微表情的分析有着紧迫的需求。微表
学位
近年来,深度卷积神经网络在各种计算机视觉上取得了突破性的进展,其应用范围也越来越广。然而,深度卷积神经网络需要强大计算能力、高存储空间和高内存占用的特性却严重阻碍着它的应用和发展,使得这些高性能的模型难以部署在一些资源受限的设备上,也无法部署在对实时性要求极高的系统中,如智能手机、树莓派、嵌入式AI系统等。通道剪枝是一个能够减小模型尺寸的研究领域,而为了更加有效地降低神经网络模型的资源占用,更小地
学位
自然图像抠图是图像处理和计算机视觉领域中一项充满挑战又十分重要的基础研究,具有广泛的应用价值。现有的自然图像抠图算法在抠图精确度以及复杂场景中的抠图方面存在一定的局限性,同一场景中不同区域的抠图难度存在不均衡的现象。研究发现,针对精细化抠图和复杂场景的抠图,可通过注意力机制提取并增强有效特征,结合多尺度侧边监督对抠图结果进行细化;而针对抠图中的不同区域抠图难度差异性大的特点,可基于注意力机制对抠图
学位
车辆图像精细化识别能够准确判断出图像中车辆的品牌、系列、年份,是支撑智慧交通系统的重要技术之一,能够缓解车辆保有量快速增加给交通管理部门带来的压力,使得城市治理更加高效。现有算法使用完整的车辆图像进行精细化识别,已经达到了较好的效果。但在城市交通复杂场景下车辆会被其他车辆或物体遮挡,以致于精细化识别算法所处理的车辆图像是不完整的,极大限制了算法性能。此外,利用检测算法从交通卡口摄像机拍摄到的全景图
学位