基于自编码的图嵌入深度聚类算法研究及应用

来源 :济南大学 | 被引量 : 0次 | 上传用户:bcde23141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法在数据挖掘中占有重要地位,并被广泛应用于医疗行业、金融行业、房地产行业等等,与我们的生活工作关联十分密切。在数据量较小维度较低的场景下,传统聚类算法能够表现出收敛速度快,结果精度高的优势。然而随着科学技术的发展,大数据时代中高维海量数据的出现,导致传统聚类算法计算量大大增加,难以取得较好的聚类效果。随着深度学习的发展,高度非线性转换的方式可以将数据处理成更有利于聚类的表示,于是与传统方法相结合的深度聚类算法引起大家的关注。深度聚类通过神经网络提取到数据的隐层特征,大大降低原始空间的维度,解决了传统聚类算法计算复杂度高的问题。但是现有的深度聚类算法很少考虑数据集之间的相关性,难以有效的划分数据点类别,对聚类精度提升十分有限。此外,由于神经网络参数量庞大,迭代过程容易过拟合,聚类精度提升容易达到上限。为了解决以上问题,本文在深度聚类中引入图嵌入先验约束的思想,提出了一系列改进算法。首先,本文借鉴图约束的思想,提出了一种新的图嵌入深度聚类算法,可以充分挖掘数据集近邻关系,从而完善局部结构信息。另外将图约束项直接惩罚聚类层隶属度,而并非传统方法施加在隐层表征空间,因此可以更加精准划分数据点的类别。实验结果验证了该方法的有效性。其次,由于图约束过度依赖近邻关系的先验知识,不同方式的亲和度矩阵构造会对聚类结果产生影响,为了减弱该项敏感性,本文提出了一种可动态调整亲和度参数的聚类算法,引入正则化熵项使亲和度矩阵由固定变成自适应调节,将邻居关系平滑处理,可以更好的发挥局部结构对全局聚类的作用。实验结果表明,引入正则化熵项的图嵌入深度聚类算法在聚类精度等指标上表现出来更优秀的性能。最后,考虑到前两种方法中,KL聚类过度依赖于t分布,对于不同类别的相近样本难以区分,即缺少抗干扰能力。因此在上述算法的基础上,本文增加判别器网络,使隶属度与随机生成的one-hot向量形成对抗关系,通过梯度下降寻求较优参数,最终得到更清晰可辨的样本类别。实验结果显示,判别器的引入突破了原始KL聚类的精度上限,进一步提高了聚类性能。综合上述成果,搭建并编写了基于自编码的图嵌入深度聚类软件,对海量高维图像数据进行数据挖掘,主要包括数据的加载与选择、算法与网络参数的设置、网络预训练、聚类算法运行、结果展示等功能。
其他文献
面对消费者消费需求由产品使用价值向产品审美以及产品个性化设计的极速转变,以往的很多产品的市场价值和产品“魅力”急速下降,已很难吸引消费者的注意,满足消费者的“胃口”。且随着技术的不断发展,产品更新换代的速度急剧增加。企业为了跟上市场环境变化的节奏,不断推陈出新,加大产品创新投资。产品设计师也为了防止自家产品与其他产品同质化严重,产品设计越来越“大胆”突破,产品理念也愈发独特清奇。在这个由产品同质化
学位
目的:从个体行为角度探索普惠型补充医疗保险的续保问题及其影响因素。方法:利用来自17 229名普惠型补充医疗保险参保人的调查数据,基于安德森模型框架,研究参保人续保意愿的影响因素。结果:81.44%的被调查参保人愿意续保;对产品服务感知、是否享受过赔付是影响续保意愿的重要因素。结论:参保人对产品服务感知是影响普惠型补充医疗保险续保意愿的核心因素,完善配套健康服务功能迫在眉睫。普惠型补充医疗保险与传
期刊
如何充分利用数据资源,促进高等教育数据智能化深度挖掘,是教育信息化广泛应用的背景下优化高等教育发展决策的关键。本文以高校在教学过程中实际生成的综合性结构化数据,和以高校学生网络行为为主要内容的非结构化数据为研究对象。针对综合数据具有特征规模复杂、因果逻辑关系弱、结论受噪声干扰影响严重等特点,设计和开发了一套以高校综合数据为基础的评价计算系统。作为一个数据计算平台,为高等教育发展决策提供技术方面的数
学位
在过去的数十年里,随着计算机软硬件的飞速发展,计算机动画技术得到了蓬勃发展。人体运动是许多视觉计算相关任务或应用的关键,例如,运动捕获数据已经可以实现大规模地应用到电影制作、视频游戏开发等领域当中。目前,运动捕获技术已经成为三维人体动画制作技术的主流。有了运动捕获数据存储库,通常需要从存储库中检索相关的运动捕获数据,例如,可以检索运动捕获数据片段并将其重新用于动画制作。然而,随着运动捕获数据的普遍
学位
现实中的许多工程应用问题都涉及到建模数据中自变量与因变量的统计关系,但由于信息的缺失和误差引入的不确定性,传统的分类和回归模型面临着失效的问题,若想提取更可靠的信息就需要建模整个条件概率分布。条件密度估计是在给定条件下估计随机变量概率密度函数的一类任务。该任务中模型需要输出目标随机变量所有取值的概率密度,可以被认为是分类和回归任务的一般化推广。该技术使得量化与目标变量预测有关的不确定性成为可能,有
学位
蛋白质是构成人体细胞、组织的重要部分,是生命活动的主要承担者。膜蛋白是与细胞质膜或细胞器膜相结合的蛋白质,其在细胞增殖、分化、信号转导等活动中起着非常重要的作用,因此,针对膜蛋白类型进行精确分类成为一项重要课题。随着高通量生物实验方法积累了大量膜蛋白序列数据,研究人员利用膜蛋白序列信息训练分类模型,通过序列特征可以快速判断未知蛋白质类别。单一特征并不能全面表示蛋白质生物信息,而特征缺失将直接影响模
学位
实现户内配电设施的远程操作需要借助直流电机以及相关辅助触点,通过触点闭合回路控制电机正反转完成相应操作。不同方案的开关设备有各自的联锁逻辑需求,所以依据电力行业标准中提出的“五防联锁”要求正确设计是实现电动操作的重要环节。鉴于此,对五防联锁在10 k V、35 k V开关柜遥控操作中的应用进行了分析和探讨。
期刊
忆阻器的概念自首次被蔡绍棠教授将其作为第四种电路元件提出之后,在非易失存储、逻辑运算以及人工突触等领域都有很大的进展。对比于更早出现的一些存储器和CPU等存算分离的系统来说,忆阻器具备着小尺寸、易制备、低功耗、计算及存储的速度快等优异的性能,此外,忆阻器所具有的先进的存算一体的功能是目前信息社会用来打破存算分离的冯·诺伊曼体系最有力的技术。因此,在新兴的信息时代,发展和探究忆阻器的各种性能刻不容缓
学位
车载自组织网络(Vehicular Ad Hoc Network,VANET)作为智能交通系统中重要组成部分之一,可以支持行人、车辆、基础设施之间实时高效可靠的通信。VANET通过交换与安全类相关的消息告知其他车辆当前的交通状况和危险事故等信息,并为道路安全和交通管理等提供安全可靠的信息传输通信方案。媒体访问控制协议(Media Access Control,MAC)协议主要负责VANET信息传输
学位
涡轴发动机是结构复杂的热机,存在着火风险,若同时直升机上灭火系统丧失功能将导致火情不可控。为分析直升机上发动机不可控火情的发生概率和设计薄弱环节,本文开展了基于模型的安全性分析。通过模型驱动的安全性分析软件simfia进行建模并自动生成故障树,通过概率计算验证其发生概率符合适航规章要求。通过最小割集分析和重要度分析得出设计薄弱环节为发动机燃油进油接口、直升机灭火瓶和灭火管路。
期刊