论文部分内容阅读
随着社会经济条件的发展,数据获取的方式越来越多,人们往往需要对大量高维的数据进行分析,但是,经常会遭受数据的“维数灾难”,使得对数据的后期处理变得非常困难。因此,在处理高维数据之前,有必要对数据进行处理。在实际应用中,解决“维数灾难”的有效途径之一是数据表示技术,数据表示技术能很好地解决高维数据难处理的缺陷。因此,为了能有效地便于数据的分析,往往需要对这些高维数据进行有效地表示,使得数据的低维表示能体现高维数据的本质信息。本文主要利用非负矩阵分解(Non-negative Matrix Factorization, NMF)算法来对高维数据进行低维表示,它将原始空间中的高维数据分解成两个低维非负矩阵的乘积,并尽可能地逼近原始高维数据。与其它矩阵分解算法最大不同之处在于NMF算法限制低维分解矩阵的元素非负,因此它是基于部分的表示,所以NMF算法能体现样本的局部特征信息。本文具体内容如下:(1)主要介绍了目前存在的几种主要数据表示算法,其中主要包括线性数据表示算法和非线性数据表示算法,并对其在数据表示时的优缺点进行了分析。(2)主要研究了NMF算法,并对传统的非负矩阵分解算法的优缺点进行了总结,同时介绍了非负矩阵分解算法的相关改进型,并对其特点进行了分析。(3)研究了一种基于邻域保持的非负矩阵分解(Neighborhood preserving non-negative matrix factorization, NPNMF)算法。针对NMF算法没有同时考虑样本固有几何结构信息的缺点,NPNMF算法利用保持样本的邻域信息来保持样本间固有的几何结构。为了利用样本的类别信息,本文进一步对NPNMF算法进行了拓展,研究了一种基于半监督学习的图嵌入非负矩阵分解(Semi-supervised Neighborhood preserving non-negative matrix factorization, SNPNMF)算法,该算法利用硬约束保持样本的类别信息,提高了算法的鉴别性。在COIL20图像库和ORL人脸库中的实验证明NPNMF算法和SNPNMF算法在进行数据表示时其聚类结果都明显要好于其对比算法。(4)研究了一种基于局部一致受限概念分解(Locally Consistent Constrained-Concept Factorization, LCC-CF)的算法。传统的CF算法既没有利用样本的类别信息,也没有考虑局部几何结构信息,而LCC-CF算法不仅利用硬约束在低维空间保持高维空间中标记样本的类别信息,同时还利用局部线性嵌入来保持样本的流形结构信息。在TDT2和Reuters-21578库中的实验结果表明LCC-CF算法的有效性。