论文部分内容阅读
目前数据挖掘技术已经成为信息决策和数据库领域最具有代表性的研究方向之一。聚类分析是一种典型的无监督分类方法,同时也是数据挖掘中的一种重要支派,被广泛地应用到、模式识别、图像处理等大型数据集分析和市场行情走向研究等多个领域。大量研究者从事着聚类分析的研究,提出了各种各样的聚类算法,但由于数据来源的多样性与数据结构的复杂性等原因以及模式样本集本身的几何特征,目前还没有一种聚类算法能够运用于所有的数据库,不同的算法应用范围都有各自的缺陷,需要根据具体的数据集来选择合适聚类算法。本文首先介绍了数据挖掘和聚类分析的研究背景和现状,然后介绍了标准粒子群算法和仿生智能基本粒子群算法的基本原理、流程、研究现状和应用发展方向,并分析比较了粒子群算法与其他仿生算法的各自特点,特别是粒子群算法的优缺点。在本文的第四章,首先针对当前聚类算法对处理高维数据易陷入局部最优和选择的初始聚类中心有可能导致算法收敛于一般次优解等不足,在已有的粒子群算法目标函数的基础上,将改进的粒子群算法运用于聚类问题之中,提出了一种基于邻域影响的粒子群聚类算法。本文在理论和应用上都说明了该算法的优越性。理论上,该算法将局部搜索能力强的K-均值算法和全局搜索能力强的粒子群算法结合,提高了搜索能力、加快收敛速度,并有效地实现了对大型高维数据的聚类问题。应用上,通过matlab进行实验分析,比较了几种改进粒子群聚类算法在运行时间、准确率和迭代次数方面的不同,得出了该算法是一种切实有用的聚类方法。