论文部分内容阅读
数据聚类作为数据挖掘的重要组成部分,得到了广泛的研究和发展。与有监督的分类相比,聚类算法通常属于无监督学习的范畴,没有先验信息可以帮助我们对数据进行分析,这也增加了数据聚类的难度。聚类分析通常根据给定的相似性度量方式,计算不同数据之间的相关性,然后将数据分为不同的类别。聚类分析技术不仅可以挖掘数据之间的内在联系,揭示数据的分布特性,还可以作为数据的一种预处理方式,便于后续的数据分析任务。经过几十年的发展,研究学者提出了大量的聚类算法,并将聚类算法成功应用于机器学习、模式识别、计算机视觉、数据压缩和图像处理等领域。然而,随着信息技术的发展,数据的维度在不断增加,传统的聚类算法将面临以下挑战和问题:1)高维数据包含大量冗余的、不相干的信息,数据之间的差异性可能是由部分特征子集导致的,直接对高维数据进行聚类,会降低算法的性能;2)高维数据通常存在于多个低维子空间中,传统的距离度量方式不再适用于高维数据;3)传统的聚类算法本身就存在稳定性较差的问题,对于高维数据,更是难以满足高稳定性的需求。因此,研究面向高维数据的聚类算法是一项非常有意义并且有挑战的课题。近年来,学者们主要从特征选择、子空间聚类、聚类集成三个方面开展了高维数据聚类算法的研究,提出了许多有效的聚类算法,但仍存在以下问题:1)对特征之间的相关性利用不充分;2)忽略了噪声以及表达矩阵的结构特性对子空间聚类的影响;3)忽略了初始聚类结果所包含子类之间的结构信息和判别性信息。针对上述问题,本文从四个方面开展了高维数据聚类算法的研究,主要的研究内容和贡献点如下:(1)基于结构保持的特征选择算法。本文采用自表达模型探索特征之间的相关性,不需要学习数据的伪标签矩阵,因此避免了噪声的引入。此外,本文在自表达模型中引入了结构保持约束,使得特征选择后的数据能够保留原始数据空间的局部流形结构,从而选出更具代表性的特征。对于构建的特征选择模型,本文采用了一种有效的迭代优化算法对其优化求解,并对优化算法的收敛性进行了理论证明。(2)基于柯西损失函数的子空间聚类算法。真实的数据通常是被噪声污染的,而且噪声具有复杂的统计分布。如果不能对数据中的噪声进行合理的约束,会影响表达矩阵的学习,从而降低子空间聚类算法的性能。为此,本文利用柯西损失函数对噪声项进行约束,因为柯西损失函数的影响函数有一个上界,所以可以降低单个残差估计对算法整体性能的影响,从而对较大的噪声进行抑制,提高聚类精度。(3)基于块对角结构的子空间聚类算法。在理想情况下,表达矩阵应该具有块对角的结构,即同一个子空间中的数据具有较大的相关性,不同子空间的数据之间相似度为零。因此,本文通过引入拉普拉斯秩约束来捕获表达矩阵的块对角结构。进一步,考虑到表达矩阵的值代表数据之间的相似度,具有非负的特性,所以本文在目标函数中添加了对表达矩阵的非负约束,从而构建的模型可以理解为一种特殊的非负矩阵分解问题,倍乘迭代算法可以对模型进行有效的求解。(4)基于集覆盖问题的聚类集成算法。该算法首先将聚类集成问题转化为一种特殊的集覆盖问题,然后构建了一个基于拉普拉斯正则的目标函数来捕获子类之间的结构信息。此外,为了探索初始聚类结果中包含的判别性信息,本方法在目标函数中引入了判别性约束,使得选出的子类有较大的差异性,从而提高聚类集成结果。