基于改进粒子群优化算法的聚类算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:twpt168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高级数据库系统以及互联网的飞速发展,数据以各种复杂形式持续地急剧增长,在实际应用中需要一种新的能够对其进行有效挖掘处理的数据分析工具。聚类分析是数据挖掘技术中的重要研究领域,它是一种按照相似性度量将数据集中的数据划分到不同的类的无监督学习过程。k-means算法是基于划分的方法,它有着简单易实现、聚类速度快、局部搜索能力比较强等优点,在遥感图像处理、模式识别、生物信息学、金融贸易等多种领域得到广泛的应用。因此,对k-means聚类算法的研究具有一定的理论和实践意义。然而,k-means算法对聚类初值有很大的依赖性,不同的初始中心点可能导致不同的聚类结果,波动性较大,而且算法容易陷入局部极值,无法获得全局最优解。针对k-means算法存在的问题,本文利用粒子群优化算法具有较强的全局搜索与优化能力的特点,提出一种基于改进粒子群优化算法的k-means聚类算法。首先利用粒子群优化算法进行全局搜索,然后将其搜索到的k个全局最优的聚类中心作为k-means算法的初始聚类中心,运行k-means算法得到最后的聚类划分结果。算法的改进与优化主要在以下几个方面:(1)根据粒子群的适应度方差来决定混合算法中前部分粒子群优化算法和后部分k-means算法的切换时机;(2)动态更新惯性权重、增加飞行时间因子,增强粒子群优化算法的全局搜索能力;(3)利用变量实时监控各个粒子以及整个粒子群的最优值的变化情况,以便及时了解粒子群的状态,判断其是否出现早熟收敛的现象;(4)对出现早熟收敛的粒子进行变异操作,增加粒子群的多样性,使粒子群优化算法及时摆脱局部极值的限制。接着针对单机改进的k-means聚类算法执行效率低、无法满足大规模数据集聚类性能需求的问题,论文给出改进聚类算法基于MapReduce分布式框架的并行化策略,的聚类算法基于MapReduce分布式框架的并行化策略。实验结果表明,本文提出的基于改进粒子群优化算法的k-means聚类算法在一定程度上提高了聚类结果的准确率,减弱了聚类结果的波动性,改善了k-means算法的聚类质量,同时避免了粒子群优化算法出现早熟收敛的现象,加快了粒子群优化算法后期的收敛速度。此外改进聚类算法基于MapReduce编程模型的并行化是可行以及有效的,该并行策略具有良好的可扩展性和并行化效率。
其他文献
随着生物恐怖主义、艾滋病及抗生素抵制的威胁,在过去的十年,对疫苗研究的关注在不断增长。MHCⅠ类结合肽可以激活细胞霉素T细胞,MHCⅡ类分子结合肽则作用于免疫反应的开始、促
随着网络技术的飞速发展,信息时代到来,信息安全问题日益突出,引起了社会的普遍重视,信息安全系统被越来越多地开发并应用,但传统的信息安全系统都为纵向服务模式,即通过API调用来
随着计算机性能、网络带宽的提高和视频编码技术的发展,视频流系统的应用日趋广泛。但是如何完成高质量的视频流任务仍面临诸多挑战:如何在通用操作系统上满足视频流的等时(i
本文以主题数字博物馆为基础,对其信息分类系统进行了研究,其目的是为了对主题资源进行有效组织,以及使领域专家和主题爱好者能够更有效、直观、准确、快速地获取某主题信息
  本文分析了国内外数据库安全领域研究的现状;对数据库中现有的安全机制及数据库面临的安全威胁进行了讨论;在此基础上将影响数据库安全的主要因素归为漏洞和用户活动两方面
随着软件开发技术的发展,从早期的汇编语言、高级语言到如今的面向对象开发语言,软件开发工程师在处理数据的存贮和校验时也面对了不同的处理方法。在早期的软件开发中,一般是将
随着内存容量需求的不断增长,传统的DRAM器件面临着严峻的能耗和可扩展性挑战。相变存储器具有高密度、高可扩展性和低功耗的优点,极有希望成为构建未来大容量内存系统的存储器
软件复用是在软件开发中避免重复劳动的解决方案,其出发点是应用系统的开发不再采用一切“从零开始”的模式,而是以已有的工作为基础,充分利用过去应用系统开发中积累的知识和经
基于属性的加密(ABE)相对于传统的公钥加密体制有着显著的优点,因为它实现的是一对多的加密而不是一对一的加密,ABE被认为是解决数据安全问题和实现细粒度访问控制问题的重要
作者从事于图像去噪技术的研究有一年半左右的时间,其间参与了医学核磁共振MR 图像分割项目的图像去噪处理,同时针对MR 图像分割做过相应的研究工作。本文提出了一种新的空间