论文部分内容阅读
模糊聚类分析是模糊模式识别范畴中的一个重要分支,是一种无监督的模式识别方法。在众多的领域得到了广泛的应用。比如分类学、地质学、商业活动、模式识别和图像处理等很多方面。研究模糊聚类的算法及其应用具有十分重要的价值,聚类的目标就是在庞大的数据集中发现潜在的数据结构,将类似的样本尽可能地划分在同一类内。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的模糊性,即建立起了样本对于类别的不确定性描述,更能客观地反映现实世界。如今,模糊聚类已发展成庞大的体系。在实际中用处较大的是基于模糊关系和相似关系的聚类算法以及基于目标函数的聚类算法。模糊c均值聚类算法是最早的目标函数聚类算法,也是目标函数聚类算法中研究得比较充分的算法。但是,在模糊c均值聚类算法以往的研究中仍旧存在薄弱环节和不足之处。模糊c均值聚类算法及其推广形式的主要缺点是对初始化较敏感,收敛速度较慢,对噪声较敏感,不适用于类与类之间的样本量相差较大的情形。目前,针对模糊c均值聚类算法及其推广形式的不足,己提出了各种各样的算法。本文首先对传统的模糊c均值聚类算法进行了分析,讨论了模糊c均值聚类中隶属度的新解释。其次,针对区间型数据,提出了相应的区间型数据模糊c均值聚类算法,将区间长度和区间中值共同作为模糊聚类的要素,这在一定程度上克服了传统区间型数据模糊c均值聚类算法的不足。再次,针对现有关于混合型数据的模糊聚类算法存在的缺陷,提出了改进的针对混合型数据的模糊c均值聚类算法。该算法对符号型数据和模糊数据使用了新的距离测度公式,在此基础上给出了改进的混合型数据模糊c均值聚类算法。实验表明新的算法在应对混合型数据的模糊聚类问题上有很好的结果。最后对聚类有效性问题进行了研究,讨论了三种基于模糊划分的聚类有效性函数。这三种聚类有效性函数分别依据可能性分布,香农熵和子集测度。