论文部分内容阅读
随着信息技术的飞速发展,许多领域都需要处理大量高维数据。数据维数的膨胀为计算带来巨大负担,导致维数灾难问题以及Hughes现象。目前数据降维已成为数据挖掘、计算机视觉、机器学习、模式识别解决Hughes现象以及维数灾难等问题的重要方法。数据降维方法是根据对特定的样本矩阵进行谱分析,将原高维空间中的数据转换到低维子空间,通过数据降维方法揭示高维空间中数据的本质分布结构或者模式关系。本文着重讨论两类数据降维方法:1)经典的主成分分析(Principal ComponentAnalysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)数据降维方法;2)基于流形学习的数据降维方法。流形学习引用微分几何学中流形的概念,流形学习假设样本是从高维空间中流形上采样得到。在模式识别问题中,流形学习假设样本在流形上的距离关系与模式之间的关系相对应,例如,流形上距离近的样本点来自相同模式,流形上距离远的样本点来自不同模式。通过流形学习得到低维映射,使流形上的距离能够用欧式距离来度量,即模式之间的关系能够通过欧式距离来度量。本文重点讨论最近提出的局部不变投影(Locality PreservingProjections,LPP)方法与鉴别局部排列(Discriminative Locality Alignment,DLA)方法。通过对这些数据降维方法的研究与讨论,本文提出了一种新的数据降维方法——余弦区分校准方法(Cosine-based Discriminative Alignment,CDA)。CDA相对PCA、LDA、LPP、DLA有如下四个优势:1)采用特征值分解求解,避免奇异矩阵问题。2)具有灵活的维数选择,映射最大维数不受类别数限制。3)同时利用同类信息与异类信息,充分利用区分信息。4)简化参数设置,优化邻域参数选择。为了验证算法的性能,我们将数据降维方法结合在一个实际的应用问题——人脸性别识别中,对提出的方法CDA与其他数据降维方法PCA、LDA、DLA、LPP进行详尽的对比实验和分析。实验结果表明,CDA算法优于其他的数据降维方法。