论文部分内容阅读
聚类技术是一门应用十分广泛的技术,它作为无监督模式识别学习过程的一个重要部分,从上世纪以来一直被深入的学习和研究,并在机器学习,数据挖掘和模式识别等重要研究领域得到了广泛的应用。聚类的目的在于通过把原来的分散的、看似毫无关系的对象集合分成相似的群或簇,来获得某种内在的联系或是数据规律。聚类分析的一个关键任务是量化地评价聚类结果,尤其是确定一个最优的类数或划分结构,而聚类结果的好坏是由聚类有效性来判定的。在工程界已经提出许多有效性指标量化地估计和评价模糊聚类算法对于给定数据集的聚类结果。但是由于不合理的结构和极大的时间耗费,迄今这些有效性指标几乎都无法满足应用的一般性需求。本文在对聚类有效性分析原理理解的基础上,通过对多种聚类有效行指标的介绍及比对,首先提出了一个基于Gerschgorin圆盘定理的聚类有效性指标来估计模糊聚类的类数,其次,在基于k-means算法和FCM算法的基础上提出了两种新的聚类有效性指标。本文做了以下几个方面的工作并进行了较为深入的研究:1.在分析聚类有效性分析原理的基础上,重点阐述多种聚类有效性指标的原理与过程,总结了Xie-Beni指标、DB指标、PB指标、熵指标等聚类有效性指标的原理及应用,并对常用的各种聚类有效性指标从运算速度、聚类精度等角度进行分析对比。2.提出一个基于Gerschgorin圆盘定理的聚类有效性指标来估计模糊聚类的类数。首先,由模糊聚类结果计算一个不同类之间的相关矩阵,接着求出该矩阵的特征值和特征向量,最后,基于经典Gerschgorin圆盘定理求解最优的类数。3.提出了一个存在于任意数据集中的不变量,结合目前广泛使用的c-means算法和FCM算法,提出了两对分别用于评价硬聚类结果和模糊聚类结果的有效性指标,并分析了它们的基本特征,通过两组实验,对这两对有效性指标的正确性、一般性和时间效率做了检验。