论文部分内容阅读
大数据时代来临的趋势已不可阻挡,信息量爆发式地增长一方面方便人们更加全面具体地观察事物,另一方面也增加了数据存储和计算的难度。维数约简作为一种能够有效降低数据维度的方法正越来越受到人们的关注。维数约简的方法包括主成成分分析(Principal Component Analysis,PCA)、线性判别分析(LinearDiscriminant Analysis, LDA)、典型相关分析(Canonical correlation analysis, CCA)和核主成成分分析(Kernel Principal Component Analysis,KPCA)等。与PCA是一种线性的维数约简方法不同,KPCA能够对非线性数据进行降维,其主要思想是将原始数据通过映射函数投影到高维特征空间,并在该特征空间进行线性的PCA处理,核函数的引入大大的降低了计算量。KPCA的降维过程是通过计算需要降维的样本与训练样本得到的主成分的线性叠加实现的,所以其计算量依赖于训练样本的大小,导使降维效率受到制约。为了提高KPCA特征提取的效率,本文提出利用近似的零范数表达式而不是传统的L1范数对主成分向量施加稀疏约束,能够得到具有良好稀疏特性的主分量。特征提取时,去除大量系数为零的训练样本,所以能够显著提高特征提取的速度。在ORL人脸数据库上的实验表明,本论文所提方法确实能够提高特征提取的速度。在实验中还发现这种算法具有不错的鲁棒性,能够较好的克服离群点的影响。线性判别分析(LDA)是监督式的特征提取方法,在人脸识别等领域得到了广泛应用。本论文为了提高特征提取速度,提出了基于无穷范数的线性判别分析方法。传统LDA方法将目标函数表示为类内散布矩阵和类间散布矩阵之差或之商的L2范数,且通常需要涉及到复杂的矩阵求逆和特征值分解问题。为了解决该问题,本文所提方法将目标函数表示为类内散布矩阵和类间散布矩阵之差的无穷范数,而且最优解是以迭代形式得到,避免了耗时的特征值分解。无穷范数使得到的基向量实现了二值化,即元素仅在-1和1两个数字内取值,避免了特征提取时的浮点型点积运算,从而降低了测试时间,提高了效率。在ORL人脸数据库和Yale数据库上的实验表明所提算法是有效的。