基于改进人工蜂群的模糊C均值聚类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:bigjohn6120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的迅速发展,各类数据信息爆炸式的增长。计算机的计算和存储能力也在日新月异,如何从繁杂的数据中提取有用的信息,以帮助分析和决策,得到越来越多的重视。数据挖掘技术应运而生,而聚类作为数据挖掘领域的重要分支,对于大量数据的提取分析起着不可替代的作用。随着数据形式的多样化,数据规模的大型化,对聚类能力的要求也越来越严格。传统聚类算法对初始点敏感,划分能力差的缺点越来越满足不了人们的需求。人工蜂群算法是群智能算法的一种,具有对初始点不敏感、适应能力强和搜索能力强等优点。而针对人工蜂群算法对单峰问题收敛速度慢、多峰问题容易陷入局部最优,以及相对单一、随机的扰动方式等问题,我们参考了差分进化算法中变异和交叉的思想,因为差分进化算法经过多年的研究和发展,具有寻优能力强,变异形式多样的优点。通过结合差分进化算法不同的变异方式,让人工蜂群算法的扰动过程收集更多的有用信息,让扰动变得更有目的性。不同的变异方式侧重不同的种群中的信息,配合相应的控制参数,平衡了算法的局部搜索和全局搜索能力,加快了算法的收敛速度。模糊C均值聚类算法在数据挖掘领域有着广泛的使用背景,而对初始点的敏感性和较差的搜索能力,限制了算法的进一步推广应用。将改进的人工蜂群算法和模糊C-均值聚类算法结合得到基于改进人工蜂群的模糊C-均值聚类算法,利用群智能算法适应能力强、搜索能力强的优点很好的弥补了模糊C均值聚类算法的缺点,并在多个国际标准数据集上的进行实验验证。统计分析实验结果,表明此算法在收敛速度、聚类精度以及稳定性等多个衡量指标上取得了明显的改进。为了进一步推广基于改进人工蜂群的模糊C-均值聚类算法,排除参数对实验结果的不确定性影响,我们进行了大量的实验,通过实验总结了算法中两个重要的控制参数的变化规律。其中变异因子F的取值增大,会导致种群的多样性增加,算法早熟风险降低,稳定性增加,但是算法的收敛速度会有一定的下降。交叉因子CR取值的增大,收敛速度加快,降低了聚类的迭代次数。但CR的取值不能一味的增大,因为CR的取值超过一定的阈值后,会使算法接近于随机搜索,收敛速度不升反降。再者CR的取值需要根据实际数据集的情况确定,CR值过大,会导致局部搜索能力不够,对于复杂聚类情况,容易丢失全局最优解,导致聚类稳定性降低。
其他文献
命名实体识别的指的是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类.命名实体识别的主要过程有实体边界的识别和确定实体的类型(如人名、地
代码自动生成(Automatic Code Generation),顾名思义,是指用手工编写的生成工具来自动生成代码。具体说就是通过生成工具读取某种形式的抽象定义文档,生成可编译的代码。  
现代导航计算机要求系统具有效率高、成本低、功耗小、接口丰富等特点,并且符合高精度、高稳定性和实时性的要求。基于现代导航计算机的上述特点和要求,本文设计了一个以Xili
随着校园网络的逐渐发展,其规模越来越大,应用也日益繁多,然而目前校园网中的应用软件多数是基于Internet设计研发的,这些软件并没有很好的利用校园网络环境的特殊性,一些针
基于虚拟人进行通信是一个相当有趣的课题,吸引了诸如计算机科学、人工智能及心理学等学科的学者的注意,并且有广泛的应用前景。目前,大部分虚拟人动画系统或是通过视觉/语音
关联规则挖掘是数据挖掘领域中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一.要发现关联规则,首先需要挖掘频繁项集,而Tire这种
在某些特定的应用环境中,由于位置偏远等原因,需要采用无线远程监控技术,本论文提出基于Windows CE的嵌入式技术和现有GPRS网络资源实现远程监控的方案。该方案是结合了嵌入
随着计算机网络和多媒体技术的发展,图像的应用日益广泛,基于内容的图像检索技术(Content-Based Image Retrieval,CBIR)应运而生,并成为图像领域研究的热点。而目前的CBIR技术还
随着计算机应用的普及以及软件产业的飞速发展,人们对于高质量软件的要求越来越高,软件测试作为提高软件质量的重要手段之一,是软件开发过程中必不可少的环节,而且通常会占用50%-7
当前,越来越多的应用场景中使用到了虚拟化技术。虚拟化技术中,应用负载被封装在虚拟机中,包括CPU,内存在内的物理资源被抽象为一个资源池。通过虚拟机的迁移技术,虚拟机可以资源