论文部分内容阅读
聚类分析是人们探索认识事物之间内在联系的重要手段,它广泛的应用在数据挖掘和信息检索等领域。即使在没有任何先验知识的情况下,聚类算法也可以从海量数据中找到有价值的信息。谱聚类作为一种高性能聚类方法,它已广泛应用于计算机视觉、语音识别、文本挖掘等领域。谱聚类的本质是将聚类转化为图的最优划分,其理论基础是图论中的谱图理论,它是一种点对聚类算法,很适合于数据聚类问题。与传统的聚类算法相比,谱聚类算法可以聚类任意形状的样本分布,并且能够收敛到全局最优解,同时还能避免由于数据的过高维数所造成的奇异性问题。对于谱聚类算法而言,聚类的过程就是利用谱图理论对相似矩阵进行划分的过程,其一般步骤是首先利用相似性度量函数构造样本的相似性矩阵,然后计算它的拉普拉斯矩阵,接着对拉普拉斯矩阵进行特征分解,得到其对应的特征值和特征向量,最后选出所需的特征向量并对其进行聚类,即可得到对应数据点的聚类类别。由此可见构造相似矩阵是谱聚类算法中非常重要的一步,相似矩阵构造的好坏直接影响聚类的结果。所以怎样构造一个好的相似矩阵成为了谱聚类算法的研究热点。本文首先介绍了谱聚类算法的基本原理,以及传统的谱聚类算法及其分类,并且分析了目前在谱聚类算法的研究中存在的问题和面临的挑战。然后以邻域信息的利用为切入点对谱聚类算法做了以下两方面的研究。(1)提出了一种基于邻域信息的模糊谱聚类算法。该方法在构造谱聚类算法的最后一步操作时,采用模糊局部信息C均值(FLICM)聚类算法。FLICM算法是在模糊C均值(FCM)算法的基础上加入邻域信息,通过对样本点邻域信息的充分利用,很好的克服了数据集中噪声点对聚类的影响。我们将FLICM算法引入到谱聚类中,提高了谱聚类算法的抗噪性能。通过实验分别在UCI数据集上和遥感图像的变化检测中验证了算法的可行性和有效性。(2)提出了一种基于双边融合的谱聚类算法。在谱聚类算法中,构造相似矩阵是非常重要的一步,相似矩阵构造的好坏直接影响到聚类的结果。该方法首先分别构造差相似矩阵和邻域差相似矩阵,然后利用双边融合的思想将两个相似矩阵进行融合,得到的融合相似矩阵充分利用了像素的邻域信息和自身的灰度信息,更好的抑制了噪声点的影响。我们将该方法应用于遥感图像的变化检测中,实验验证了改进后的谱聚类算法在聚类准确性上明显优于传统的谱聚类算法。