基于自监督学习的深度聚类方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bh2068285
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人工智能逐渐受到广泛关注。作为人工智能领域的重要研究课题之一,机器学习中的无监督学习由于不需要标签先验作为指导,在一些难以人工标注的问题上能够取得较好的效果,具有一定的应用价值。本文介绍的聚类分析方法就属于无监督学习范畴,该类方法基于数据集内部的相似关系对样本进行划分,不需要提供标签先验作为指导。早期聚类方法虽然在低维数据上具有很好的聚类效果,但是在处理高维数据时由于维数灾难问题表现不佳,而深度网络能够对高维数据做更好的非线性拟合,所以基于深度学习的聚类方法是近年来的研究热点。基于深度学习的聚类方法,通常依据相似性度量进行聚类。现有深度聚类方法多在相似性度量模块采用局部约束,可以使簇内点相似性得到准确度量,但对簇边缘点的类别属性判别不够准确,从而导致特征空间中簇边缘不清晰;另外一方面,目前基于深度模型的聚类方法需要较高的计算复杂度,对于大规模数据集而言,采用浅层网络无法学习到良好的特征表示,会导致聚类效果不佳,而采用ResNet-50等网络层数较深的模型训练时需要更大的存储空间和更高的计算能力,并且训练时间更长。本文针对以上两个问题提出了两种改进方法:(1)针对特征空间中簇边缘不清晰的情况,本文提出一种基于变分自编码器的对比聚类方法。为了得到样本间的约束信息,首先通过图片随机水平偏移、图片随机竖直偏移和零相位成分分析白化对数据进行增强,获取自监督信息;接着利用局部相似性结构保持和对比学习模块对特征进行约束,既可以得到准确的簇内局部相似性,也可以借用对比学习获得判别性特征;对特征进行距离度量获得每个类中样本的隶属度,进一步对代表不同类的隶属度向量进行约束,改善簇边缘样本点隶属度不清晰的问题;此外,在图像和其特征之间引入互信息度量,进一步提高特征表示的准确性,减少信息丢失。(2)由于基于变分自编码器的对比聚类方法采用浅层网络提取特征,在大规模复杂数据集上表现不佳,若将网络换为层数更深的ResNet-50,虽然网络提特征的能力增强,但由于数据增强的存在,输入为双输入,算法存在占用内存大,计算复杂度高的问题,因此本文提出了基于教师-学生网络细化特征的聚类方法。该方法采用经过预训练的大模型作为教师网络,对输入的数据集提取更准确的特征表示,并将特征映射到原型向量,利用教师网络的表征能力来对学生网络进行训练,使得学生网络能够拥有趋近于教师网络的表示学习能力;同时在学习过程中,对原型向量和样本特征进行编码约束,间接对比学生网络与教师网络提取的特征,增强两个特征的一致性,进一步提高样本类划分的准确性。实验结果表明,基于变分自编码器的对比聚类方法能够有效改善特征空间中簇边缘不清晰的问题,在Fashion-mnisttest数据集上,所提出方法的ACC,NMI和ARI分别比次优方法高出4.73%,7%和8.07%。;基于教师-学生网络细化特征的聚类方法能够有效提高在大规模数据集上的表示学习能力,从而提高聚类性能,在Cifar-10数据集上,所提出方法的ACC,NMI和ARI指标比次优的方法分别高出了 2.2%,2.7%,4.2%。
其他文献
随着半导体行业和集成电路技术的快速发展,电源管理技术得到了广泛的关注和深入的研究。低压差线性稳压器(LDO)凭借其低噪声、低成本、高精度、电路简单等优点成为了电源管理电路中应用最广泛的产品。由于消费式电子设备的发展需求,近几年的LDO研究向着低噪声、快速瞬态响应、出色的环路稳定性和无片外电容等方向发展。本文对实现低噪声和快速瞬态响应的LDO进行了一定的讨论和研究。本篇论文采用HHNEC 0.35μ
学位
随着工艺制程的进步,芯片的集成度越来越高,面对超大规模的集成电路,传统的展平式设计法往往无法高效地实现设计指标。层次化设计法通过模块划分的方式,把一个完整的设计转换为多个并行化的设计,从而减少了物理设计阶段的耗时,提升了设计效率。本文以一款采用TSMC 90nm工艺的ARM双核处理器芯片的层次化物理设计为背景,对层次化设计法进行了研究与实现,主要完成了以下工作:(1)使用层次化设计法,基于Cade
学位
本文在大量调研物品证件遗失寻回问题后,针对校园内失物招领信息发布分散,失主查询困难,物品找回成功率低等问题,对基于深度学习的文本检测和文本识别算法,以及现今常用的OCR开源框架和商用服务进行了研究,提出了一种改进的OCR识别算法,并最终利用该算法实现了一套基于OCR技术的智能失物招领系统。该系统通过OCR自动识别丢失证件信息,快速发布失物内容并能通过短信微信主动通知失主,极大地提高了失物找回成功率
学位
狼疮性肾炎伴血小板减少病机复杂,病情反复难愈。谌曦主任认为该病以肝脾肾亏虚为本,湿、热、瘀、毒为标,疾病初期以邪实为主,表现为热毒炽盛、水湿壅盛等,缓解期以正虚为主,主要表现为气血阴阳不足,归其病因病机总属正虚邪实,临床治疗以滋补肝脾肾、养血活血,辅以清热凉血、利湿消肿等,治疗效果显著。
期刊
钛合金作为一种具有密度小、比强度高、生物相容性好等优异性能的合金,被广泛应用于各个领域,但其耐磨性能差、硬度低限制了其发展。为了克服此难点,国内外研究学者尝试利用离子注入、化学热处理、等离子喷涂、气相沉积等方法对钛及钛合金进行表面改性,在一定程度上提高了钛合金的表面性能。其中,激光表面合金化技术由于其加工效率高、热影响区小且与基材结合好等优点,受到国内外学者的广泛关注。通过设计合理的合金化材料体系
学位
<正>近年来,随着我国医学技术的飞速发展,宫腔镜技术因其创伤小、并发症少等优势已广泛应用于各类妇科疾病临床治疗中[1]。宫腔镜下电切手术针对诸多类型宫腔疾病均具有显著的治疗效果,但部分患者仍可能出现术中低温及其他应激反应,最终影响手术治疗效果,甚至影响患者预后结局[2]。
期刊
甲状腺癌是实体癌中发病率增速最快的恶性肿瘤之一。细胞核形态、细胞核分布等特征关系到癌症的临床诊断和治疗效果的预测。如果能及早诊断,大多数甲状腺癌都能被很好地治愈。随着数字化图像技术的提高、计算机视觉技术的发展和计算硬件的计算能力的巨大提升,越来越多的研究工作者致力于使用计算机对病理图像进行自动化分析来辅助诊断。而细胞核分割是病理图像自动分析的关键步骤,本文针对甲状腺癌病理图像的细胞核分割方法进行了
学位
能源和环境的危机长久以来掣肘我国的发展,电动汽车(Electric Vehicle,EV)已经因为节能、环保的需求而被定义为汽车行业必然的发展趋势。动力电池(Power Battery)给电动汽车提供能量,它影响整车的动力性、安全性和经济性,如何制造和管理好动力电池是电动汽车发展的关键。动力电池在电压、容量、内阻等方面的不一致性客观存在,且它们会在电池运行过程中逐渐扩大。为了满足电动汽车对其电压和
学位
随着时代的发展,人们对于中医治疗的需求与日俱增,中医临床中出现了医护工作者供不应求、工作量大且重复性劳动较多等问题。利用视觉技术和机器人,有望有效地缓解这些问题。在国家科学技术部重大专项“中医经络穴位常见异常表现的现代识别及干预的关键技术研究”课题的支持下,论文设计了一款基于视觉和机械关节的测量干预系统,探索了对患者进行穴位测量和干预治疗的自动化方法。论文搭建了由工控机、ARM控制板、工业相机、机
学位
狼疮性肾炎是临床上公认的肾病科难治性病症,王耀献教授结合多年临床经验,认为伏热是该病的重要进展因素,认为应该从伏热的角度论治狼疮性肾炎,应以“伏热气郁,肾虚津耗”为核心病机,“清热理气,补肾生津”为核心治法,并且结合肾脏各时期不同的病理表现以及疾病的活动程度,将狼疮性肾炎分两期论治,活动期清透伏热、凉血疏肝,缓解期滋水涵木、以防来复。
期刊