论文部分内容阅读
近年来所提出的谱聚类算法是一种较为流行的聚类分析方法。谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类,且能收敛于全局最优解的优点。谱聚类算法通过特征分解,利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。
本文主要围绕谱聚类算法若干关键技术问题的研究及其应用展开,主要内容包括以下几个方面:
1.详细介绍了聚类分析和谱聚类算法,描述了图的基本知识、矩阵表示、相似矩阵、度矩阵及拉普拉斯矩阵,并系统阐述了谱图理论、图划分准则以及谱聚类算法当前研究和应用,进而分析了谱聚类算法的若干关键技术问题,总结性地提出了几个有价值的研究方向。
2.针对谱聚类算法的如何自动确定类个数这一关键问题,本文提出了一种基于本征间隙与正交特征向量的自动谱聚类算法。它通过对分类数据建立规范化相似矩阵并进行谱分解,利用本征间隙自动确定数据的类个数;利用确定的类个数和谱分解的特征向量之间的夹角完成数据的分类。该算法的正确性在人造数据库上得到了验证,并在UCI数据库上与其它聚类算法进行了分类准确性比较实验,结果表明该算法具有很好的聚类效果。
3.针对谱聚类算法的另一关键问题:如何选取尺度参数。本文在充分考虑数据聚类一致性特征的基础上,提出了一种自动确定尺度参数的方法-加权近邻自适应尺度,代替了标准谱聚类算法中的全局统一尺度。它克服了传统谱聚类算法中,使用者必须花费大量的精力去选取尺度参数的问题,得到一种既简化尺度参数选取又有更佳聚类效果的算法。最后给出该算法实验结果和分析。
4.本文结合前面两章对如何自动确定类个数及如何选取尺度参数的分析研究,提出了利用加权近邻自适应尺度代替传统全局统一尺度参数、利用样本数据的本征间隙估计类个数、利用正交特征向量聚类的自整定谱聚类算法,并通过对“挑战性”数据集和UCI数据库验证了算法的有效性。随后,在研究人类肤色特征的基础上,将自整定谱聚类算法应用在人脸检测中,实验结果表明,具有较好的检测效果。