基于改进的密度峰值优化初始聚类中心的K-means算法

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:dongshantongak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术能够从大量的数据中挖掘有用的知识,进而做出相应的决策。聚类分析是数据挖掘之中的一个较为基础的工具,应用相当广泛。K-means算法是一种典型的基于划分的聚类分析技术,该算法由于实现简单、收敛速度快且对大规模数据有很好的处理效果而被广泛应用。但是,该算法存在一些问题,如需要事先人为确定聚类个数K、随机选取初始聚类中心可能导致聚类结果不稳定等问题。密度峰值算法(DPC算法)是2014年提出来的一种新的聚类算法。该算法能够快速地发现任意形状的数据集的密度峰值点(聚类中心),并且能够高效地进行样本点的分配和离群点的剔除,且参数易确定,适用于大规模数据的聚类分析。此外,DPC算法在解决初始聚类中心选取方面很有针对性。针对K-means算法需要事先人为确定聚类个数K、随机选取初始聚类中心可能导致聚类结果不稳定的问题,提出了一种基于改进的密度峰值算法的K-means算法。该算法采用改进的DPC算法来选取初始聚类中心以及确定聚类个数K,从而弥补了K-means算法的以上缺陷。针对微阵列基因选择难的问题,将改进的K-means算法与微粒群算法(PSO算法)相融合,提出一种基于改进的K-means融合微粒群优化(IK-PSO算法)的基因选择方法,降低了PSO算法寻优的难度。为了验证本文提出的算法的有效性和可行性,在UCI数据库选取的数据集进行了实验,实验结果表明了:(1)基于改进的密度峰值算法的K-means算法能够得到较好的初始聚类中心和较稳定的聚类结果,并且收敛速度较快,从而证明了该算法的有效性;(2)IK-PSO算法降低了PSO算法寻优的难度且分类性能得到显著的提高,从而证明了该算法的可行性及有效性。
其他文献
近年来,传统的非磁性材料在纳米尺度下表现出的室温铁磁性这一发现挑战了人们对传统铁磁性起源的认识:铁磁性是由含d或f电子的磁性原子或离子通过交换相互作用而产生的。有研
本文主要对户外体育游戏怎样影响幼儿的身体和心理的发展展开了分析和阐述。首先从户外体育游戏对儿童身体健康方面的影响展开了叙述,包括对儿童骨骼、关节、呼吸系统等几个
随着金融市场的不断发展和不断完善,经济学家对于金融市场的研究和分析也越来越深入。而在该领域内,围绕着金融市场中各类金融产品波动率的研究始终占据着重要的位置。我们通
随着2015年中国人民银行实施利率自由浮动后,加剧了内蒙古地区各商业银行间的市场竞争压力,加之电子银行的日益迅速发展,实体银行面临愈来愈烈的挑战,商业银行要想在竞争中取得优势地位需要结合自身实际寻找新的营销模式。过去,旧的营销模式是以产品为中心的卖方市场,目前的银行市场已经是以消费者为中心的买方市场。银行需要利用服务营销来提高市场竞争力,并利用服务质量来突出其竞争优势。ZS银行在全国股份制商业银行
承清初务实之风,乾嘉时期金石学达到极盛,学者们对金石学的研究更为普遍,这一时期的访碑活动也空前绝后。一为证经考史之需,又可研讨书法文字。山东作为金石寻访的重镇,“五
目的:尝试在留学生骨科教学中进行以运动系统疾病为主线的教学改革,以期对改进留学生运动系统教学提供参考。方法:骨科教研室在总结既往留学生教学得失的基础上,分别从教学前
<正>云栖小镇,地处之江核心,四面环山、碧水中流,地理特征很像美国的"硅谷"。这里是特色小镇的一个发祥地和发源地。2013年,西湖区携手阿里巴巴,在云栖打造中国首个具有科技
对于离散的可积系统一直是人们研究的热点。关于离散可积的海森堡铁磁链方程人们已进行了大量的讨论和研究。最近对离散的修正海森堡铁磁链方程的研究引起人们的关注。研究表
随着中国城镇化进程的发展,城镇化水平的提高,国内的房地产业也得到了如火如荼的发展。尤其近十几年来,房地产业发展势头更为迅猛,已经成为国民经济的支柱产业之一。宝德地产成立
苯乙酮(AP)作为电压稳定剂可显著提高聚乙烯(PE)绝缘材料的击穿场强和耐电树枝老化性能。但由于其与PE相容性差,容易从PE绝缘材料中迁出,严重影响PE绝缘材料的介电性能和长期使用