基于混合PSO的K-means算法及并行化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:snowpine15505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘有四种主要任务:关联分析、聚类分析、预测建模、异常检测。其中聚类分析是最重要的使用最广泛的任务之一。高效率和高精度结果一直是数据挖掘追求的目标。为了实现这一目标,人们进行了多种研究,其中一种就是将其它算法应用到数据挖掘中,这些算法包括智能算法、启发式算法,神经网络,模糊理论,粗糙集理论等等。论文中将禁忌搜索思想和粒子群优化算法引入到K-means聚类算法中,以此来提高K-means聚类算法的效率和聚类结果的精度。禁忌搜索(Tabu Search)是一种智能启发式的全局性邻域搜索算法,它通过局部邻域搜索机制和相应的禁忌准则来避免迂回搜索,并通过特赦准则来释放一些被禁忌的优良对象,从而保证搜索的多样化和有效性,研究表明它可以克服演化算法容易陷入早熟的缺陷,最终实现全局优化。粒子群优化算法(Particle Swarm Optimization)是一种演化计算技术,它具有简单、有效、收敛速度较快、全局搜索能力较强等特点,近年来受到学术界的高度关注,但是该算法也具有可能陷入局部最优进而导致结果精度低和收敛速度慢的缺点,因此在论文中使用禁忌搜索和控制参数等方法来改进粒子群优化算法,从而提高该算法的效率和解的精度。K-means是基于划分的聚类方法。它在目前的聚类分析中应用很广泛。但是该算法的缺点是易陷入局部最优,效率不高。而且聚类个数K常常是依据经验来确定,这将影响聚类结果。针对K-means算法的不足,把禁忌搜索思想和粒子群优化算法引入到K-means聚类算法中,以提高K-means算法的效率和结果精度。论文中研究了禁忌对象和禁忌表结构的选取、个体编码方式的选取、惯性权重的改进、罚函数的方式及表达式的选取和构造、适应度函数的构造。实验证明改进后的K-means算法的效率和结果精度都得到了提高。为了进一步提高算法的执行效率,论文中研究了K-means算法的并行化。通过种群或者子种群之间的等价关系来确定等价类,按等价类初步划分种群,然后把划分好的种群分配到Slave结点上,实现数据并行,最后由Master结点机进行汇总给出结果。论文以时间复杂度和空间复杂度等指标从理论上对并行化的算法进行了评价,理论分析表明并行算法比并行算法具有更高的效率。
其他文献
本论文研究了图论领域的两个问题及其应用:小树宽图和对集可扩图。 近二十五年来,树宽这一概念在图论算法研究的许多方面起到了重要的作用。小树宽图在众多领域都有应用。许
如何有效挖掘数据中蕴含的因果关系是自然科学研究的基础问题。统计学中变量之间的相关性不等于因果关系。变量之间的因果关系应当具有可预测性,可解释性,以及可干预性等特征
贝叶斯网络是目前不确定知识表达和推理领域最有效的理论模型之一。本文在对贝叶斯网络基本理论进行研究和探讨的基础上,首次将人工鱼群算法引入到由Noisy-Or和Noisy-And等模
随着Internet的高速发展,数字视频技术得到了长足的进步和广泛的应用。与此同时,数字视频文件的安全问题也日显突出。传统的加密算法如DES、IDEA、RSA等,理论上可以用于数字
网络存储是当前信息技术领域中一个热门的研究方向。iSCSI技术是网络存储的底层存储协议,它的目的是在TCP/IP网络上实现SCSI传输协议。随着网络存储技术的飞速发展,对存储系
从今天开始,摆脱亚健康带来的疲惫,将养生和健身变得有趣和生动,做一个在工作和生活之间游刃有余的美丽俏佳人,亚力山大健康集团总经理廖燕琳做到了,你呢?如果给你两种选择,
碳素是电解铝过程中用的电极。碳素的质量主要是由其配方及其生产工艺过程所决定,而在这个过程中,起决定作用的是碳素配方生产。对于碳素配方生产,现在主要是进行人工配料,由于环
随着计算机技术在尖端领域的应用,为了提高系统的安全性与可靠性,形式化方法得到长足的发展,也出现了许多优秀的形式化工具,例如,B、VDM、Z语言,还有诸如Petri网、CSP、CCS、
以数据处理为中心的无线传感器网络(WSN)具有节点数目众多、携带能源受限以及通信距离受限等特点,受这些特点的约束,降低并均衡节点功耗以延长网络生命周期成为无线传感器网
21世纪是信息技术高速发展,也是生物信息科学发展的时代,生命科学与信息科学相互交叉融合,不仅促进了各自领域的发展,又不断促进新领域的诞生。信息科学的发展为生命科学的发