论文部分内容阅读
随着信息处理技术的发展,人们越来越倾向于选择用计算机来统计和管理数据,随之而来的是数据库的规模的不断地扩大。如何更好的提取有价值的数据信息成为当今数据处理研究的主要内容。数据挖掘技术由此应运而生,它是当前数据库和信息决策领域最前沿的研究方向之一。聚类分析作为数据挖掘的一个重要分支,目前已经在多个领域有了广泛地应用,比如于市场行情走向研究、用户行为研究、各种模式识别、大数据集分析以及图形图像的处理等领域。当前,大量的研究者从事着这一领域的研究,同时也发表了大量的文献,提出了各种各样的聚类算法,虽然算法的种类很多,但是不同的算法所针对的聚类数据类型和应用范围是些差别的。本文首先介绍数据挖掘中聚类算法和粒子群算法的基本原理及发展现状,通过对现有聚类算法的分析以及粒子群算法的优缺点分析比较,针对当前聚类算法存在对处理高维数据时易陷入局部最优等缺点对算法进行改进,研究内容如下:(1)根据基本粒子群算法原理,通过在已有改进目标函数的基础上,将进化理论运用于聚类问题求解。(2)在粒子群算法中引入克隆、选择算子寻求最优解。在同一粒子周围使用克隆选择算子进行多个方向的全局和局部搜索,促使种群中粒子快速进化,较快的得到局部最优和全局最优的位置,从而使算法特别是在处理高维数据的聚类问题时,而且能有效地避免陷入局部最优,提高了聚类算法的稳定性及可靠性。(3)通过前一部分对算法的改进研究,在本文最后,将改进后的算法与已有文献中提出的模糊聚类的改进算法(FCM)、基于PSO的模糊聚类算法(PSOFCM)以及基于克隆选择的模糊聚类算法(CSFCM)在聚类正确率方面进行比较,然后利用Eclipse集成开发软件进行仿真测试,通过测试结果来说明改进后的算法解决高维数据时在稳定性和可靠性方面的优势。