论文部分内容阅读
在过去的几十年内,数据采集能力的提高以及存储容量的增长,导致了科学研究的很多领域中信息量急剧增长,它向人们提供更加丰富、细致的信息的同时也造成了大量的信息冗余。在机器学习和模式识别领域的应用中,由于高维数据产生的维数灾难问题通常会影响传统算法的性能。维数灾难是指高维数据的估计需要的样本个数与维数构成指数增长的关系,但在实际应用中,通常样本点的数量较少而导致的高维数据空间的本征稀疏性。为了解决这一问题,维数约简通常作为数据预处理过程应用到数据分析以及机器学习的其它应用当中,以用来简化数据模型。
维数约简是将高维数据转换为有意义的低维表达的一种变换,在很多领域当中都具有举足轻重的作用,如模式分类、高维数据可视化、数据压缩等等。通过降维方法可以将高维数据投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。在该低维子空间中进行分类或聚类可以得到更精确的结果,且计算代价大大降低。
本文总结概括了各种常用的高维数据的降维方法及其分类。并且对这些方法进行了评估,指出存在的一些问题,提出了一种新的基于流形学习与子空间的降维方法(DRMS)。DRMS利用LLE算法保持同类的邻域几何结构不变,提取类间的判别特征,增大类间的距离,从而达到有效分类的目的。该方法寻求在描述高维数据集内在结构与高维数据集的可分性两种目标函数意义下的折中,将高维数据投影到一个最优的低维空间。
本文将DRMS算法应用到多模态生物认证系统中。选用了人脸图像和掌纹图像信息作为生物特征。选用了ORL和FERET人脸数据库以及PolyU掌纹数据库作为实验数据来源。通过进行大量的实验以及与其它降维方法进行对比,证明了DRMS算法的有效性及鲁棒性。