论文部分内容阅读
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,是人们认识和探索事物之间内在联系的有效手段。聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中有价值的信息。谱聚类算法作为一种新型的聚类分析的算法,与常用的k-均值聚类方法相比,谱聚类具有明显的优势,该方法不仅不易陷入局部最优解,而且具有识别非凸分布的聚类的能力,能够对任意形状的样本空间进行聚类,适合于许多实际应用问题。谱聚类算法是一种基于相似矩阵的聚类算法,使用谱图理论对相似矩阵进行划分。传统的谱聚类算法首先定义样本数据集的距离度量,基于距离度量获得相似性度量,由相似性度量构造样本数据集的相似度矩阵W,之后求出拉普拉斯矩阵L,计算出L的特征值和特征向量,最后选择一个或多个特征向量就可以对不同的数据点进行聚类。由于谱聚类算法直接在相似矩阵上进行分割,不同形式的相似矩阵对算法的影响很大,因此研究关于相似矩阵对谱聚类算法的影响以及如何构造一个适合谱聚类分割的相似矩阵问题,这些问题对于谱聚类算法来说,是具有研究意义的几个方面。本文详细介绍了谱聚类算法的相关理论和方法以及谱聚类生效的原因和优势,并指出了传统的谱聚类算法受相似矩阵影响的问题。最后做了以下两个主要的工作:第一,为了验证谱聚类算法相比k-均值算法能够在任意形状的样本空间上可进行聚类且不易陷入局部最优解两个方面上具有的优势。本文在构造谱聚类算法最后一步操作时,采用k-均值聚类算法,目的是为了对比谱聚类算法和k-均值聚类算法。算法代码在matlab7.0上实现,统计分析k-均值算法和谱聚类算法在基于图的初始样本数据集上的实验结果,说明谱聚类算法比k均值算法在聚类准确性和适用性范围上具有改进。第二,虽然目前已经有了多种谱聚类算法,但是其区别仅在于所处理的矩阵不同,矩阵的谱和特征向量与聚类之间的关系并不十分地清楚,而且现在也还没有完整的理论来描述和界定谱聚类方法的性能和分析其局限性。由于谱聚类算法直接在相似矩阵上进行分割,在此,首先介绍一些目前存在的相似矩阵的构造方法,包括不同的距离公式产生的相似矩阵,不同的特征类型产生的相似矩阵以及不同的特征整合方法产生的相似矩阵,然而不同形式的相似矩阵对算法的影响很大,因此找到一种新的阻尼矩阵来代替相似矩阵,减少相似矩阵对算法的影响。改进的谱聚类算法并不是直接对相似度构造的相似矩阵进行聚类分析,而是对由阻尼距离构造的阻尼矩阵进行聚类分析。算法代码在matlab7.0上实现,统计分析改进的谱聚类算法和传统的谱聚类算法在基于图的初始样本数据集上的实验结果,说明改进的谱聚类算法比传统的谱聚类算法在聚类准确性上大部分情况下具有改进,也进一步丰富了构造相似矩阵的理论。