论文部分内容阅读
流形学习方法已经成为当前机器学习领域研究的一个热点。基于局部线性和全局非线性的假设,流形学习方法能有效地探测非线性数据的内部结构,并且具有保留这些结构的特点,因此流形学习方法是一种有效的数据可视化方法。然而,流形学习方法作为一种非线性特征提取方法,当面临数据分类的任务时,却暴露出诸多缺陷,例如小样本问题、样本外点学习问题、噪声敏感问题和数据可分性能差等问题。为了克服数据分类过程中流形学习方法的这些缺点,本文提出了几种基于流形学习的特征提取方法,并建立了一个广义的Fisher线性特征提取框架。全文的主要工作概括如下:(1)在应用流形学习算法进行特征提取之前一个很重要的任务就是对噪声数据进行预处理。本文提出了一种基于鲁棒主分量分析(RPCA)的去噪方法。首先通过鲁棒主分量分析和循环赋权最小均方(IRLS)算法对数据点赋权;然后由箱(BOX)统计方法对这些权值进行分析,以识别其中的噪声点和干净点;最后,对去掉噪声后的数据采用流形学习方法进行映射。(2)局部线形嵌入(LLE)算法是一种经典的流形学习算法,它通过保持近邻点之间的最小重构权值不变,将原始数据点投影到低维空间。LLE算法有一个特点,即近邻点间的最小重构误差是旋转、平移和比例不变的,利用平移和比例不变特性可以提高嵌入结果的判别能力。因此提出一种名为局部线性判别嵌入(LLDE)的新方法来提高LLE算法的分类能力,并且可以通过一种改进的最大边缘标准(MMMC)自动得到最佳的线性平移和比例变换。最后在人脸和基因表达数据上的实验结果证实了LLDE算法的有效性。(3)在实际应用中,数据分类问题可以看作是一个面向分类的多子流形学习问题。对于多子流形学习问题,提出了一种以保留数据的局部结构为约束条件,使子流形之间的差异最大为目标函数的模型,该模型被称为约束最大差异映射算法(CMVM)。CMVM是通过线性变换找到一个最佳子空间,使不同子流形数据更分散、同一流形数据更紧密。在人脸和手写体数字上的实验表明CMVM是一种有效的特征提取方法。(4)目前大多数线性特征提取方法,无论是传统的线性方法,还是对传统流形学习方法的线性近似,都有一个共同点,就是它们的目标函数可以表示成一种Fisher形式。基于这个共同点,本文提出了一种广义Fisher框架(GFF),其中类别信息和局部结构信息被集成在一起。在满足一定条件和正确参数设置情况下,大多数线性特征提取方法都可以看成广义Fisher框架的特例。实验结果验证了我们所提出方法的可行性和有效性。