论文部分内容阅读
近些年来,谱聚类算法在模式识别中获得了广泛的应用,是目前较为流行的聚类分析方法之一。谱聚类算法是以谱图理论为基础的,与之前人们所熟知的聚类方法相比,其克服了传统聚类算法只能在凸图形上聚类的缺点,除此之外该算法具有收敛到全局最优解的优点。谱聚类算法首先是对相似矩阵进行特征分解,将得到的特征向量构造成新的简化的数据空间,即降低了数据维度又使待聚类的原数据在子空间中的分布结构更加清晰。为了更好的反映原数据中点与点之间的关系,本文提出将流形距离引入谱聚类中得到一种基于流形距离核的谱聚类算法。本文的主要内容包括以下几个方面:1.系统介绍了聚类分析以及谱聚类算法,在谱聚类的基础知识中又介绍了图的基本知识、矩阵表示、度矩阵及拉普拉斯矩阵,并系统阐述了谱图理论、图划分准则以及谱聚类算法的实现。2.针对原始谱聚类基于欧式距离的相似性度量,提出一种能够反映数据聚类复杂空间分布特性的基于流形距离核的谱聚类算法,它能充分挖掘数据集中的内在结构信息,从而较好地反映局部和全局一致性。该算法在具有“挑战性”的人工数据集中得到了很好的验证,并且选择几个UCI数据集作为实验数据,将本文提出的谱聚类改进算法同其它聚类算法进行分类比较,实验结果表明此改进算法具有很好的聚类效果。3.将改进后的谱聚类算法作为欠取样的一种方式,提出一种基于流形距离核的谱聚类欠取样方法,用于SVM不均衡数据的分类中,从而解决数据不均衡性,因此提高了SVM分类器的性能。最后利用基于流形距离核的谱聚类欠取样SVM算法对滚动轴承故障检测数据集进行检测性能测试,并同其他对于不均衡数据预处理的算法进行检测性能比较,结果表明,对于滚动轴承故障,该算法具有较好的检测性能。