论文部分内容阅读
聚类分析是用数学方法来研究分类问题的一门学科,是统计模式识别中非监督模式分类的一个重要分支,近二十年来得到了迅猛的发展。模糊聚类算法由于更能准确描述模式间的不确定关系,已经成为近年来研究的热点。在众多的模糊聚类算法中,文献中研究最多、实际中应用最广的是基于目标函数的模糊聚类算法,而且在图像处理、模式识别、计算机视觉等许多领域中已经获得了成功的应用,是目前最实用也是最受欢迎的算法之一。针对现有聚类分析算法在数据挖掘应用中存在的不完善甚至严重不足之处,本文结合粒子群全局优化方法以及支持向量聚类算法,对传统模糊聚类算法进行较为系统的改造和创新,主要探讨了模糊聚类算法目标函数的定义以及改进方法,提出了适合高维任意分布数据集的模糊聚类新算法,扩展了聚类分析的应用范围,并构造了一种新的模糊聚类有效性函数。实验结果表明,本文提出的一系列有关模糊聚类分析的新思想和新方法都取得了良好的效果并在国家科技支撑计划项目中得到了应用。研究成果主要表现在以下几个方面:1.提出了一种改进的可能性C均值聚类方法。该方法首先通过改进PCM算法的目标函数来计算数据模式的隶属度矩阵和聚类中心完成粒子编码,从而降低了算法对初始中心的敏感,避免聚类一致性问题,提高了聚类的精度;针对基于目标函数的模糊聚类算法是一种局部搜索算法,引入粒子群优化算法,使全局的寻优能力大大提高,具有良好的搜索能力和聚类效果。2.提出了一种新的支持向量模糊聚类方法。该方法比起传统聚类方法表现出较好的性能,它通过对二次规划问题的求解可以保证全局最优解,而且能够处理任意形状数据集和划分有重叠区域的聚类形状,并且容易处理高维数据;实验结果验证了该设计方法的可行性和有效性。3.提出了一种基于密度函数的近似初始化方法。该方法主要解决针对大多数基于目标函数的模糊聚类算法大都需要预先给定初始的聚类中心的问题。该方法通过利用样本分布的密度函数来确定聚类中心,仿真实验表明该方法不仅对高维的大数据集能取得良好的聚类效果,而且计算量也得到了有效的控制。4.提出了一种基于划分系数与相似度量的有效性算法。该方法既考虑了数据集的分布特征又结合了模糊划分系数,使聚类结果更清晰,可以用作数据集的模糊聚类有效性评价。设计了一种模糊决策评价函数来对加权指数进行最优化选取。实验结果证明了它们的有效性。本文的工作受到国家科技支撑计划项目和陕西省“13115”科技创新工程重大科技专项的资助。