论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、事先并不知道的、但又是潜在的、有价值的信息和知识的过程。聚类分析是其中非常重要的一个研究领域,它在生物、医学、商业、Web文档等方面都有非常重要的应用,是研究的热点之一。
在这样一个数据爆炸的时代,需要更有效快速地方法来对数据进行研究,而群智能算法为传统的聚类算法注入了新的活力,取得了令人满意的聚类结果。因此,用智能算法粒子群来研究聚类也就更具有现实意义和理论意义。本文对聚类进行了详细的分析,介绍了粒子群的研究现状,给出了粒子群算法详细的参数分析以及在聚类上的基本思想,对现有粒子群聚类算法进行了深入分析,然后针对粒子群随机初始化这一问题,提出了两种改进算法。总体来说,本文主要完成了以下工作:
⑴粒子群算法随机初始化粒子,不同的初始值往往得到不同的聚类结果,并且受初始值的影响比较大,容易陷入局部极值,聚类结果不稳定,聚类准确率较差。针对这一问题,对粒子群算法进行了改进,将仿射传播方法得到的高质量簇中心作为粒子群初始化时其中某个粒子的初始值,其他粒子随机初始化,然后再用基本的粒子群进行聚类,并采用了误差平方和的适应度函数,线性微分递减的惯性权重,这一改进方法有效的避免了粒子群算法受初始值影响较大这一缺点。最后实验从聚类结果稳定性、聚类准确率和收敛速度三个角度来说明提出算法的较高的聚类质量。
⑵基于熵的模糊聚类算法可以确定簇的个数和聚类中心,而聚类中心正是一些需要初始值的聚类算法所需要的,粒子群算法中的粒子正需要这样一个较好的初始值。鉴于此对粒子群算法进行了改进,将基于熵的模糊聚类算法得到的聚类中心作为粒子群初始化时其中某个粒子的初始值,其他粒子随机初始化,并采用了误差平方和的适应度函数,线性微分递减的惯性权重。实验表明,提出算法的聚类稳定性、聚类准确率以及收敛速度都有一定程度的提高。
在这样一个数据爆炸的时代,需要更有效快速地方法来对数据进行研究,而群智能算法为传统的聚类算法注入了新的活力,取得了令人满意的聚类结果。因此,用智能算法粒子群来研究聚类也就更具有现实意义和理论意义。本文对聚类进行了详细的分析,介绍了粒子群的研究现状,给出了粒子群算法详细的参数分析以及在聚类上的基本思想,对现有粒子群聚类算法进行了深入分析,然后针对粒子群随机初始化这一问题,提出了两种改进算法。总体来说,本文主要完成了以下工作:
⑴粒子群算法随机初始化粒子,不同的初始值往往得到不同的聚类结果,并且受初始值的影响比较大,容易陷入局部极值,聚类结果不稳定,聚类准确率较差。针对这一问题,对粒子群算法进行了改进,将仿射传播方法得到的高质量簇中心作为粒子群初始化时其中某个粒子的初始值,其他粒子随机初始化,然后再用基本的粒子群进行聚类,并采用了误差平方和的适应度函数,线性微分递减的惯性权重,这一改进方法有效的避免了粒子群算法受初始值影响较大这一缺点。最后实验从聚类结果稳定性、聚类准确率和收敛速度三个角度来说明提出算法的较高的聚类质量。
⑵基于熵的模糊聚类算法可以确定簇的个数和聚类中心,而聚类中心正是一些需要初始值的聚类算法所需要的,粒子群算法中的粒子正需要这样一个较好的初始值。鉴于此对粒子群算法进行了改进,将基于熵的模糊聚类算法得到的聚类中心作为粒子群初始化时其中某个粒子的初始值,其他粒子随机初始化,并采用了误差平方和的适应度函数,线性微分递减的惯性权重。实验表明,提出算法的聚类稳定性、聚类准确率以及收敛速度都有一定程度的提高。