论文部分内容阅读
随着计算机技术的迅速发展,各类数据信息爆炸式的增长。计算机的计算和存储能力也在日新月异,如何从繁杂的数据中提取有用的信息,以帮助分析和决策,得到越来越多的重视。数据挖掘技术应运而生,而聚类作为数据挖掘领域的重要分支,对于大量数据的提取分析起着不可替代的作用。随着数据形式的多样化,数据规模的大型化,对聚类能力的要求也越来越严格。传统聚类算法对初始点敏感,划分能力差的缺点越来越满足不了人们的需求。人工蜂群算法是群智能算法的一种,具有对初始点不敏感、适应能力强和搜索能力强等优点。而针对人工蜂群算法对单峰问题收敛速度慢、多峰问题容易陷入局部最优,以及相对单一、随机的扰动方式等问题,我们参考了差分进化算法中变异和交叉的思想,因为差分进化算法经过多年的研究和发展,具有寻优能力强,变异形式多样的优点。通过结合差分进化算法不同的变异方式,让人工蜂群算法的扰动过程收集更多的有用信息,让扰动变得更有目的性。不同的变异方式侧重不同的种群中的信息,配合相应的控制参数,平衡了算法的局部搜索和全局搜索能力,加快了算法的收敛速度。模糊C均值聚类算法在数据挖掘领域有着广泛的使用背景,而对初始点的敏感性和较差的搜索能力,限制了算法的进一步推广应用。将改进的人工蜂群算法和模糊C-均值聚类算法结合得到基于改进人工蜂群的模糊C-均值聚类算法,利用群智能算法适应能力强、搜索能力强的优点很好的弥补了模糊C均值聚类算法的缺点,并在多个国际标准数据集上的进行实验验证。统计分析实验结果,表明此算法在收敛速度、聚类精度以及稳定性等多个衡量指标上取得了明显的改进。为了进一步推广基于改进人工蜂群的模糊C-均值聚类算法,排除参数对实验结果的不确定性影响,我们进行了大量的实验,通过实验总结了算法中两个重要的控制参数的变化规律。其中变异因子F的取值增大,会导致种群的多样性增加,算法早熟风险降低,稳定性增加,但是算法的收敛速度会有一定的下降。交叉因子CR取值的增大,收敛速度加快,降低了聚类的迭代次数。但CR的取值不能一味的增大,因为CR的取值超过一定的阈值后,会使算法接近于随机搜索,收敛速度不升反降。再者CR的取值需要根据实际数据集的情况确定,CR值过大,会导致局部搜索能力不够,对于复杂聚类情况,容易丢失全局最优解,导致聚类稳定性降低。