论文部分内容阅读
聚类分析源于许多研究领域,包括数据挖掘、机器学习、统计学、模式识别等,它是数据挖掘中的一个重要分支。目前,数据挖掘技术的一个突出特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类的能力、处理高维数据的能力等等。
在众多的聚类分析算法中,模糊c均值聚类算法是当前研究的热点之一。但该方法也存在诸多不足:模糊c均值聚类算法易处理球形状的聚类,但对非球形状的聚类效果不佳;模糊c均值聚类算法中需事先确定c值,而实际数据集中c值很难确定;模糊c均值聚类算法受噪声的影响较大;等等。结合上述分析,本论文对模糊c均值聚类算法进行了深入地研究,并针对其算法存在的不足提出了改进。本论文主要工作如下:
基于模糊c均值聚类的图像分割是应用较为广泛的方法之一,但大多数模糊c均值聚类方法都是基于欧氏距离,且存在运算时间过长等问题。本文提出了一种基于Mahalanobis距离的模糊c均值聚类图像分割算法。实验分析表明,本文提出的算法在保证分割质量的前提下,能较快提高分割速度。实验结果表明了该方法的有效性。
传统的模糊聚类方法一般是用来解决静态数据聚类的。但现实生活中,数据通常是不断变化的。对于新增加的数据,要想获得新的聚类结果,要么重新聚类,要么增量聚类。重新聚类代价太大,而且浪费了以前获取的有用信息。增量式聚类利用前期的聚类结果对新增数据进行聚类,节约了前期聚类的计算资源,提高了聚类效率。本文利用上述的基于马氏距离的模糊聚类方法,将其用于增量学习中,提出了一种基于马氏距离的模糊增量聚类学习算法。实验结果表明该算法能较有效地解决模糊聚类方法中的缺陷,提高了训练精度。