基于密度调整的密度峰值聚类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:woshi52038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2014年,意大利学者Alex Rodriguez等人提出了一种新的聚类算法——密度峰值聚类算法(Clustering by Fast Search and Find of Density Peaks),简称 DPC。该算法只需输入一个参数,就能够对各种类型的数据集进行聚类,并且能够剔除噪声数据的影响,取得了较好的聚类效果。自从该算法提出以来,受到了国内外学者的广泛关注。虽然DPC算法已经成为被广泛接受的聚类算法,但该算法仍然存在许多不足:(1)算法时间复杂度较高,对较大规模数据集的聚类效果不理想。(2)聚类过程不是自适应的,无法根据数据集自动调整参数。(3)聚类准确性容易受到数据结构的影响,会导致许多簇的丢失、“假峰”和“无峰值”现象的出现。(4)高维复杂数据集适用性差,由于高维数据集中含有许多不相关变量,算法没有对这些变量进行处理,就会对聚类效果产生一定的影响。针对这些问题,本文对DPC算法进行了深入研究,对其存在的问题进行了改进,提出了优化的改进算法,具体的研究内容和研究结果如下:1.提出了一种结合密度比和系统演化的密度峰值聚类算法(DS-DPC)。首先,利用自然最近邻搜索得出各样本点的邻居数目,根据密度比思想改进密度计算公式,使其能够反映周围样本的分布情况;其次,对局部密度与相对距离的乘积进行降序排列,选出合适的聚类中心,将剩余样本按照DPC算法的分配策略进行聚类,避免了手动选择聚类中心的主观性;最后,利用系统演化方法判断聚类结果是否需要合并或分离。通过在多个数据集上进行实验,并与其他聚类算法进行比较,实验结果表明,DS-DPC算法具有较好的聚类效果。2.提出了一种领域密度调整的密度峰值聚类算法(DPC-DDA)。首先,利用样本领域内的密度差度量样本之间的相似性,更准确的反映周围样本的差异;其次,用密度敏感距离代替欧氏距离,计算出的距离会使不同类簇之间的样本距离较大,同一类簇中的样本距离较小;最后,将样本的类内类外划分指标作为聚类有效性指标来确定聚类中心。通过在多个数据集上进行实验,并与DPC算法和其他基于密度的聚类算法DBSCAN、OPTICS、FKNN-DPC、SNN-DPC算法进行比较,实验结果表明,DPC-DDA算法在大多数数据集上的聚类效果有所提高。
其他文献
含有易损部件圆柱壳结构包含薄壁圆柱壳、加强筋、易损设备件等特殊部件,是一种振动特性较为复杂的结构,其广泛应用在火箭、潜艇、汽车等军事及民用领域。本文采用仿真与试验对比的方法,从模态分析、随机响应分析、随机载荷识别三个方面对含有易损部件圆柱壳结构进行了振动特性研究,主要的研究工作包括:首先,利用计算模态分析和试验模态分析对比的方法,研究了含有易损部件圆柱壳结构的模态特性。对含有易损部件圆柱壳结构进行
学位
超疏水材料由于表面特有的润湿性能,使其在油水分离、自清洁以及防潮包装等领域具备广泛应用。而单一功能的超疏水材料在应用方面会受到限制。因此,将超疏水材料功能化成为目前研究学者关注的重点。本论文从超疏水材料的导电性能和pH响应性能入手。首先,通过多壁碳纳米管(MWCNT)和石墨烯纳米片(GNP)之间的协同作用,引入聚二甲基硅氧烷(PDMS)对纸张表面进行改性,将纸张浸入到悬浮液中,制备出具有导电性能的
学位
随着印刷产业智能化、精密化快速发展,对于印刷装备的稳定性和可靠性提出了新的要求,在高印刷速度下设备各部件耦合性强,难以及时诊断设备早期微弱故障,不能保证高质量、高精度的印刷作业需求。为了获取高效可靠的故障特征及诊断模型,本文从符号编码理论与信息量分析角度出发,通过对时间序列数据复杂度的描述与诊断模型研究,实现了印刷装备中的轴承与齿轮等关键传动部件的故障诊断功能,主要工作如下:(1)开展了基于信息熵
学位
凹版印刷机主要包括开卷机构、自动换卷装置、印刷机构、供墨机构、干燥机构、收卷机构这六大部分。在实际调查过程中发现干燥机构——烘箱存在能源极大浪费、烘箱喷嘴处出风速度不均匀、印品烘干效率低等问题。为了提高烘箱能源利用率和印品干燥效率,本文首先通过仿真方法研究了烘箱热风流动的过程,其次研究了保温层对烘箱保温效果的影响,然后研究了不同工况对水性油墨溶剂相变速率的影响,最终对烘箱结构进行了改进。具体研究内
学位
解析数论是以分析方法作为研究工具的一个数论分支。指数和、特征和是解析数论重要的组成部分,是解决一些数论难题强有力的工具,它们在数论领域发挥着重要的作用。比如:一些同余方程解的个数问题可以转化为求解指数和上界。随着科技的发展,数论与其他领域的联系越来越密切,指数和在密码学、编码学等领域都有广泛的应用。在密码学中,一些序列的伪随机性问题可以通过证明它的均匀分布得到解决,而证明均匀分布可以转化为求解指数
学位
近年来,羧甲基纤维素(CMC)因为其优异的生物相容性、生物降解性、生物安全性以及成膜稳定性等,在食品包装、医药和涂料生产等方面都获得到了广泛的应用。然而由于CMC缺少生物抗菌活性,限制了其应用范围。对CMC进行化学改性和修饰,不仅可以赋予其抗菌特性,还可以改善其机械性能。咪唑鎓盐作为一种新兴的离子液体,具有高稳定性、优异的抗菌活性以及与生物质材料良好的相容性,因此在抗菌包装领域具有较大的应用前景。
学位
钙钛矿太阳能光伏器件已经在世界范围内获得广泛的研究,基于廉价的沉积和生长方法,其有望进一步降低太阳能使用成本。溶剂工程凭借其制备方法简单、可扩展性好等优势,成为制备高效钙钛矿太阳能电池(PSCs)器件最常用的沉积方法之一。在溶剂工程中,前驱体溶液的化学性质对钙钛矿结晶性能有较强影响。钙钛矿的结晶动力学强烈依赖于胶体溶液与卤化铅的配合物。极性非质子溶剂与碘化铅有很强的配位能力,可以形成稳定的中间相,
学位
群智能算法是近几十年发展起来的一类模拟生物群体行为规律的全局概率搜索算法,通过种群间个体的相互竞争与协作实现对优化问题最优解的搜索。人工生态优化算法(AEO)是一种模拟生态系统中能量流动和物质循环机制的新型群智能算法,具有结构简单,易于实现的优点,但也存在着计算精度不高、易陷入局部最优和难以平衡探索与开发等不足。基于此,本文提出了三种改进的AEO算法,并将其应用于聚类优化、工程优化和数据分类中。具
学位
为落实农业农村部和中央机构编制委员会印发的《关于加强基层动植物疫病防控体系建设的意见》要求,针对博州温泉县植物疫病防控体系建设现状,指出了植物疫病防控体系建设中存在的问题,针对性地提出了改进措施和对策建议,为今后疫情防控工作指明了努力方向。
期刊
股票市场的价格波动不仅影响着国民经济的发展状况,而且对投资者做投资决策和执行决策起着关键的作用。我国股票市场的特点是个人投资者占比例较多,在投资过程中往往会受到非理性因素的干扰,使得股票市场存在传统金融学理论难以解释的异象。因此,研究股票价格预测和基于投资者情绪的择时策略是十分重要的。本文基于ICA方法对股价预测模型以及基于投资者情绪的股票择时策略进行了研究。主要内容如下:(1)为了提高传统Fas
学位