论文部分内容阅读
在现实应用中,高维数据大量增长,因此如何处理高维数据成为模式识别、机器学习中的一个热门研究领域。一方面在现实应用系统中,直接处理高维数据,导致计算复杂度高和存储空间大,甚至会带来潜在的“维度灾难”和过拟合问题;另一方面在高维数据中存在大量不相关、冗余的特征会影响数据的分类。上述两方面说明对高维数据进行降维处理是十分有必要的。降维的目的是找到高维数据的低维表达,其中研究表明图嵌入是降维的有效方法之一。本文提出了三种特征提取方法处理高维数据,主要研究工作和创新如下:(1)在已有的图嵌入方法中几乎没有直接考虑每个样本的几何分布来表示邻接图的权重。事实上,数据特征空间中的每个样本都有不同的几何分布,邻接图中的权重应该由样本的几何位置来确定。为了克服已有方法中存在的不足,提出了一种新颖的方法称作可鉴别全局与局部保持图嵌入方法(Discriminative Globality and Locality Preserving Graph Embedding,DGLPGE)。在DGLPGE中,在构造全局和局部邻接图时,充分考虑了样本的可鉴别性信息和几何分布,目的是保存样本固有的几何结构和可鉴别结构。其中为了进一步提高异类之间的模式鉴别,区分的定义了邻接图的权重。通过邻接图刻画几何保持离散度,采用最大间距准则来构造目标函数,以此保持全局与局部几何离散度更具有可鉴别性。(2)受基于表示的图嵌入方法的启发,分别提出了基于协作表示的局部保持投影(Collaborative Representation-based Locality Preserving Projections,CRLPP)和基于概率协作表示的几何保持图嵌入(Probabilistic Collaborative Representation-based Geometry Preserving Graph Embedding,PCRGPGE)两种方法。在CRLPP中,假设相似的样本经过协作表示重构之后有相似的重构关系,相似的数据经过重构之后在投影子空间中有相似的低维表达。CRLPP使用协作表示进行重构每个训练样本,同时构造包含样本局部结构的邻接图,然后得到目标函数,从而获得高维数据的低维表达。在PCRGPGE中,主要思想是把基于概率协作表示的数据样本重构与构造包含数据鉴别信息和几何信息的全局邻接图相结合,然后得到目标函数,从而在子空间中获取高维数据的低维隐含结构信息。CRLPP和PCRGPGE通过与相关图嵌入方法的实验对比,结果表明是有效的方法。(3)设计并实现了基于可鉴别图嵌入的图像分类原型系统。系统包括需求分析,概要设计和详细设计与实现三个阶段并采用Java及其系列开源框架开发完成,系统主要包括登录、算法选择执行和算法结果展示页面。