论文部分内容阅读
在低维空间描述高维数据是数据分析、模式识别、机器学习、计算机视觉等领域的基础问题之一。随着传感器技术和数据采集技术的迅速发展,实际数据的维数越来越高,如何有效地描述数据已成为目前急需要解决和非常活跃的研究方向之一。在已有的众多方法中,最经典且部分得到成功应用的方法是主成分分析(Principal Component Analysis,PCA)。PCA是基于最小均方误差的特征提取技术,有效地保持了数据的全局欧氏距离结构,即差异信息;缺点是不能有效地保持非线性数据的差异信息,导致性能比较差。对此,本文从PCA入手,借助流形学习的思想,深入研究了基于图论的差异信息保持投影,主要内容和贡献如下:第一,针对PCA不能有效地保持非线性数据的局部差异信息,导致性能比较差等问题,提出了局部信息保持投影算法(Local Information Preserving Projection,LIPP)。该算法借助流形学习的思想,在训练数据集上定义一个由顶点和相似矩阵构成的加权邻接图,其中顶点是由训练数据构成,相似矩阵度量了顶点之间的差异信息大小。在此基础上,建立了一个简明、含义明确的特征提取准则,该准则通过最大化差异离散度寻找投影方向。和传统的PCA相比,LIPP不仅适用于线性数据的描述和分类,而且有效地保持了非线性数据的局部差异信息,并取得了不错的效果。实验结果证明了所提算法的有效性。第二,针对LIPP存在小样本和计算比较复杂等问题,提出了二维局部信息保持投影(two-Dimensional Local Information Preserving Projection,2DLIPP)。该方法借助经典的二维特征提取技术如2DPCA,将提出的LIPP算法推广到二维,有效地避免了将图像转换成向量,较好地保持了图像相邻像素之间的空间结构信息,同时降低了计算复杂度。和2DPCA相比,2DLIPP不仅适用于线性数据的描述和分类,而且有效地保持了非线性数据的局部差异信息,并取得了不错的效果。在Yale,UMIST,AR和ORL等人脸库上的实验结果证实了所提方法的有效性。