论文部分内容阅读
随着科学技术的飞速发展,人们的生活中充斥着各种各样的信息,在面临从这种海量信息中提取有价值的知识的问题上,很多工作往往需要对大数据量的数据进行聚类分析。作为一种最经典的划分聚类算法,K均值算法应用广泛、算法思想简单易实现,聚类快速能够处理大数据集。但是,K均值聚类算法自身也存在一些不足:聚类结果过分依赖初始点的选择,全局搜索能力较弱,易陷入局部最优解。与此同时,日益发展的群体智能技术也因其自有的优良特性而被运用到改善聚类性能问题上。人工蜂群算法具有简单易实现、全局寻优能力强、所需控制参数少等特点。所以本文在前人的基础上,首先对人工蜂群算法进行改进,再将其与K均值算法有效的结合,最后通过仿真实验并应用在复杂网络的社区划分问题上,证明改进算法的有效性,具体工作如下:(1)种群初始化在人工蜂群算法中极为重要,初始化的好坏直接关系到算法后期的迭代时空复杂度。针对人工蜂群算法初始化随机性问题,本文提出一种最大最小距离积算法用于种群的初始化,克服原算法的初始化的盲目性和随机性。(2)针对人工蜂群算法在迭代后期容易出现收敛缓慢的问题,本文提出一种基于全局影响因子的位置更新公式。该公式在保证蜂群具有较强的开采能力的同时,也提升了其探索能力。同时为与K均值有效结合,这里提出一种基于K均值聚类过程的适应度公式,从而能够能精确地引导种群的进化方向,提高了人工蜂群算法的健壮性。(3)将改进后的人工蜂群算法与K均值算法结合得到混合聚类算法,利用改进算法的特性有效克服了K均值算法全局搜索能力差以及依赖初始中心点的缺陷。(4)将改进的混合聚类算法用于复杂网络的社区划分问题上,将社区划分问题转换为聚类问题。通过在数据集Karate、Dolphins和Football证明了此应用的合理性。通过在各数据集上的实验结果表明,基于改进人工蜂群算法的K均值混合聚类算法具有较强的全局搜索能力和较好的稳定性,且聚类精度较好,速度有明显提升,同时能够有效地解决社区划分问题。