论文部分内容阅读
聚类分析是数据挖掘、模式识别和机器学习领域的重要研究内容,其功能是按照某种准则将数据划分成组。目前,对于聚类问题的研究普遍存在于社会生活中的各个领域,如模式识别,图像处理、机器学习和统计学等,作为数据分析和理解的重要方法,聚类分析研究已经有很长的历史。K-均值聚类算法是一种被广泛使用的聚类算法,具有简单易行、高效性等优点。但是该算法存在着一定的缺陷:它对聚类中心初值的选择具有很强的依赖性和敏感性、易受孤立点影响、易陷入局部最优;另一方面,需要事先指定K值表示聚类个数,且K值是决定聚类质量的关键因素之一;另外,在实际应用中将其应用于图像分割时对噪声很敏感。为了改善K-均值算法中所存在的这几个缺陷,本文提出并设计了三种改进算法,主要工作内容如下:1)提出了一种改进的快速全局K-均值聚类算法,该方法在快速全局K-均值的基础上加入了两种改进策略,大大降低了计算量,加快了计算速度。这样不仅解决了K-均值聚类算法最终的聚类结果强烈依赖于初始聚类中心的选取且聚类结果非常不稳定的问题,而且解决了使用快速全局K-均值算法需要计算数据集关联矩阵的问题,用更短的时间得到了更为理想的聚类结果,并且该算法可以用于较大规模数据集的聚类。通过实验证明该算法不仅性能稳定,而且在不影响聚类效果的前提下比原始的快速全局K-均值算法速度更快。2)提出了一种基于新聚类有效性函数的快速全局K均值聚类算法,用一种新的有效性评价函数结合前面提出的改进快速全局K-均值算法,设定在一定范围内变化聚类数,使用聚类算法划分样本数据集,用有效性评价函数评估多次聚类结果的质量,最后找出最优的类别数K值。该算法解决了类别数K值的自动选择问题。实验证明该算法不仅适用于人工数据集和UCI数据集,还可用于自然图像的自动分割,实验结果不仅自动的得到了正确的类别数,而且取得了良好的聚类效果。3)提出了一种结合图像空间信息的快速全局K-均值聚类算法并将其应用于含有噪声的图像的分割,在前面提出的改进的快速全局K-均值聚类算法的基础上结合图像的空间位置信息,加强了该算法用于图像分割时对噪声的鲁棒性。实验证明将该算法用于含有噪声的图像的分割取得了良好的效果,对噪声具有很好的鲁棒性。