论文部分内容阅读
特征降维是模式识别领域对高维数据分析的重要预处理步骤之一。在信息时代的科学研究中,不可避免的会遇到大量的高维数据,如人脸检测与识别、文本分类和微阵列数据基因选择等。在实际应用中,为了避免所谓的维数灾难问题,根据某些性质,将高维数据表示的观测点模拟成低维空间中的数据点,这一过程即为特征降维过程。总的来说,降维的目的是在保留数据的大部分内在信息的同时将高维空间的数据样本嵌入到一个相对低维的空间,而降维技术又可以分为“特征提取”和“特征选择”。经过适当的降维后,诸如可视化、分类等工作可以在低维空间中方便的实现。本文研究目的是为了探索新的有监督特征降维方法,并提出了一种基于支持向量机(SVM)的特征选择方法和一组基于有监督局部保留准则的特征降维算法。文中简要介绍了特征降维的准则,回顾了当前的主要特征降维技术,如主成分分析(PCA)、Fisher线性判别分析(FLDA)和最近的基于流形的特征提取方法以及相关的特征选择算法。本论文重点是:(一)建立了一种改进的基于支持向量机(SVM)的特征选择算法,阐述了应用该算法进行特征选择的原理和方法;(二)建立了有监督的局部保留准则,阐述了应用该准则进行特征提取与特征选择的原理和方法。针对基于支持向量机(SVM)的特征选择问题,文中充分利用SVM的最大间隔特性,利用支持向量和核函数来对特征进行排序和选择。而对于基于有监督的局部保留准则的特征降维,文中在详细分析无监督的局部保留准则利弊的基础上,提出了保留类内局部结构的同时最大化类内分离度的降维准则,并分别应用于特征提取和特征选择。论文最后采用MATLAB来编程实现了文中提出的算法,选取了大量的数据集来进行实验。大量的实验结果都表明,本文提出的方法是有效的、可行的,并且与现有的一些特征降维方法相比,更为有效。