论文部分内容阅读
随着信息技术的迅速发展,我们所获取、存储和需要处理的数据开始呈指数级增长。这些数据不仅数量大、更新速度快,而且通常蕴藏着很多难以直接观察到的内在规律。针对这些高维海量数据,如何从中有效获取所需的信息,发现其内在规律,一直是机器学习等领域所面临的基本问题,而维数约简成为解决此类问题的有效方法之一。同时,对高维数据进行维数约简,能够有效避免维数灾难,移除高维空间中的噪声和无关属性,降低数据存储所需的空间,提高后续学习算法的性能和效率。两种最经典的降维方法是主成分分析(PCA)和线性判别分析(LDA)。PCA是一种无监督学习的降维方法,它的目的是寻找使得样本协方差最大的投影方向,LDA是一种监督学习的降维方法,它的目的是寻找使得同类样本尽量聚集,不同类样本尽量分散的投影方向。但它们在提取数据特征的过程中,存在全局正态分布的模型假设,当实际样本与这种分布假设不相符时,其性能将受到极大影响。近些年,很多基于流形学习的线性判别分析算法相继被提出,但它们通常采用某一固定参数模型(如高斯函数)来描述数据的内部几何结构,数据分布的复杂多样造成固定参数模型并非数据本质结构的最优描述。为了解决这些问题,本文提出了几种改进算法,以更快速有效地提取高维数据的内在本质特征,并将所提方法应用于人脸识别等实际问题。本文的主要研究成果为:1、针对目前大部分基于LDA改进的算法鲁棒性差的问题,提出了动态加权非参数判别分析(DWNDA),该算法通过引入动态加权距离度量,使得样本点之间的距离计算方式随着其模式分布的不同动态调整。DWNDA在计算类内散布度的过程中,考虑了同类模式样本的复杂分布模态,特别是各个模态之间分布特征的差异性,便于提取同类模式样本的内在几何结构特征;在计算类间散布度的过程中,突出边缘样本点对的影响,同时利用了不同样本点的统计特性,降低了噪声样本的影响。2、针对一些基于图嵌入的算法存在的鲁棒性差及超参数设置问题,提出了归一化局部敏感判别分析(NLSDA),该算法在构建类内和类间邻接图矩阵时,通过对边权重进行归一化,以降低噪声样本的影响力,提高算法的鲁棒性。同时,NLSDA不需要设置邻域就能够很好的学习数据的局部拓扑结构,解决了很多图嵌入算法存在的超参数设置问题。3、针对传统基于欧氏距离度量的算法存在的局部拓扑结构损坏及鲁棒性差的问题,提出了自适应局部敏感判别分析(ALSDA)。ALSDA在本文所提NLSDA的基础上,引入了自适应范数来度量嵌入空间中样本点之间的距离,既保留了NLSDA的优点,同时更好地保护了数据的局部拓扑结构,增强了对异常样本点的鲁棒性。通过在人脸数据库和手写体数据库上进行实验,并和一系列经典的维数约简方法进行比较,验证了本文所提算法的有效性。