论文部分内容阅读
在机器学习和数据挖掘等领域的许多实际问题中,如人脸识别,数字图像识别和数据可视化等,都需要面临高维数据的分析和处理。高维数据不仅会增加算法的计算负担,而且由于包含大量的冗余信息会掩盖数据的内在真实结构,给学习和分析任务带来很大的困难。数据降维技术是解决这一问题的有效手段,它不仅可以挖掘出数据的本质结构,而且能够以较少的计算代价帮助完成既定的学习任务。因此,针对数据降维技术的研究一直以来都是相关领域研究的重点课题。本论文重点研究针对高维数据的降维理论与方法以及在人脸识别领域中的具体应用。论文的主要研究内容和创新成果如下:1.从基于全局统计和基于局部几何性质的角度总结了已有数据降维算法的各自特点和优势,分析了各种算法的本质和内在联系。2.经典的PCA和KPCA算法都是在最小平方意义下进行建模的,其求解缺乏足够的稳健性。数据中即使掺杂了少量的离群样本也会使得它们求解的主分量方向产生很大偏倚。本文针对这一问题提出了一种稳健的非线性降维算法IRobust KPCA。该算法通过隐式的方式辨别并抑制数据中的离群样本,能够学习出准确的非线性子空间。由于采用了迭代的方式更新计算,算法还具有潜在的增量学习的优势。与标准KPCA算法的对比实验结果表明了该算法的有效性和稳健性。3.基于局部保持的思想,提出了一种针对高维数据的流形学习和模式分类的监督降维算法SMDA。经典的LDA算法仅考虑了样本的全局统计信息,不适用于非线性分布的数据。而基于局部几何性质的流形学习算法在解释数据的内在结构方面具有明显的优势。因此,本文基于局部分析的思想提出了SMDA算法。该算法试图在保持数据局部性质的同时最大化各类别之间的间隔,能够获得良好的判别性能。并且由于采用了优化的邻域选择机制,SMDA能够避免已有方法在刻画数据局部几何结构时所面临的一些问题。在Yale和UMIST人脸数据库上的实验结果表明了该算法的有效性以及相对于主流的PCA、LDA、LPP和MFA算法的优越性。4.基于流形正则化的思想,提出了一种可用于多类问题半监督学习算法MLapRLS。MLapRLS算法采用多变量回归模型用于分类问题,并且构建了所有样本的近邻图来估计整个数据空间的几何结构,作为回归目标的正则化项。在该算法中,无标签样本的作用就是协助估计数据空间的局部几何结构,帮助获得更为有效的判别向量。在Extended YaleB和PIE人脸数据库上的实验结果表明了该算法的有效性。