论文部分内容阅读
流形学习自2000年首次被提出来后,因其假设数据具有局部欧氏空间的性质,被广泛应用于高维数据的降维和数据的可视化研究。目前,经典的流形学习方法针对的都是均匀的、单流形的、非相交的简单结构的数据,而真实的数据分布可能是具有不均匀的、多流形的、有相交区域的复杂结构的高维数据,而这些数据广泛存在于金融、医疗、天文等领域,因此,对于多流形数据开展相关研究具有很强的现实意义。本文就多流形数据的分类问题展开研究。具体体现为:(1)本文提出了一种基于密度和数据几何结构的相交多流形聚类方法DC_MPPCA算法。该算法针对基于密度的多流形聚类算法无法处理相交多流形的问题,在基于密度构造点和点之间数据关系时,运用MPPCA算法将多流形数据分块,以保证不同流形上的样本在不同块中,再分别判断各个块是否位于同一流形上,由此分类了相交多流形数据。该算法在人工数据和真实数据上取得了较好的实验效果。(2)Tensor Voting是一种基于局部的能够准确描述出相交多流形数据的几何结构的方法。本文基于Tensor Voting提出了TMMC算法,该算法不仅可以有效识别出多流形数据中的相交区域,且可以通过相交区域的中心点来将相交区域中的点划分到周围相对应的非相交区域中,进而可以准确地求解出每个点的法向量,最终我们通过求解相邻点之间的切空间偏差来构造数据的几何相似性矩阵,利用谱聚类的思想来将相交多流形数据分类开来。该算法可以较准确地描述和有效解决相交多流形问题。在人工数据和真实数据上的实验,验证了该算法的有效性。(3)设计了一款“基于MATLAB的流形学习方法可视化展示系统”。该系统内嵌了多种经典的人工数据集和流形学习算法,不仅可以可视化展示而且可以进行个性化的算法比较。另外,该系统具有极强的可拓展性,无论数据集还是算法都可以按需添加,且具有一定的人机交互功能。