论文部分内容阅读
聚类分析是用数学的方法研究分类问题的一门学科,近20年来得到了迅猛的发展,并在模式识别、计算机视觉、决策分析以及预测等领域中获得了广泛的应用。模糊聚类由于能够描述样本类属的中介性,能够客观地反映现实世界,已逐渐成为聚类分析的主流。在众多的模糊聚类算法中,模糊c-均值算法(FCM)可以说是应用最为广泛、最为灵敏的一种算法。但它没有对样本特征进行优化,其有效性很大程度上取决于数据点的分布情况,对初始化特别敏感,很容易陷入局部极小值或者鞍点,而得不到全局最优解。并且当使用这一聚类算法时,必须事先指定数据集的聚类数,然而聚类数c一般是很难预先知道的。当样本边界为线性不可分或者样本中有离群点时,聚类效果较差,无法达到高精度的聚类要求。而核函数的引入增加了对样本特征的优化,通过将样本点从输入空间映射到高维特征空间,将非线性学习问题转化为线性学习问题,从而实现了更为准确的聚类。 本文将核方法的思想推广到模糊c-均值聚类算法,提出了两种核聚类算法,包括特征空间中的模糊核聚类算法KFCM和输入空间中的模糊核聚类算法KFCM。在人工和Benchmark数据集上的结果显示,所提出的核聚类算法是鲁棒的,适合对不完整或缺失数据、包含噪声和离群数据的聚类。 对于样本集中含有离群点的数据,提出了一种新的特征加权模糊核聚类算法来发现样本集中的离群点。通过Mercer核把离群点映射到特征空间,并为特征空间的每个向量分配一个动态权值,在经典的FCM模糊聚类算法的基础上得到了一个特征空间内的全新聚类目标函数,通过目标函数的优化,最终得到了各个数据的权值,根据权值的大小标识出样本集中的离群点,并且,也从理论上证明了特征加权模糊核聚类算法的收敛性。