论文部分内容阅读
降维(DR)和数据分类是两个最重要的机器学习任务,用于许多模式识别应用,如人脸识别,医学成像,指纹识别,语音识别等。邻域保留策略应用在许多著名的算法中,例如邻域保持嵌入(NPE),局部保留投影(LPP)和k最近邻规则(KNN)。但是这些算法对参数设置非常敏感。例如NPE和LPP对邻域大小的参数非常敏感,这降低了降维的性能。此外,现有的多种DR方法通常利用单个图来保持邻域关系,这种区分不适合于多视图数据集的降维。此外KNN的分类性能受邻域大小k和现有异常值的影响很大。因此本文设计了基于近邻集成保持策略的降维和分类方法研究,旨在减少NPE,LPP和KNN中的上述近邻约束。
在第一种DR方法中,我们提出了一种称为加权邻域保持集成嵌入(WNPEE)的新型DR方法。与NPE不同,所提出的WNPEE构造了多个近邻图的集成。通过近邻图的集成构建,WNPEE可以通过联合优化方式获得最优嵌入图的低维投影。对ORL,GeorgiaTech,CMUPIE和Yale四种人脸数据集的实验表明,WNPEE实现了比NPE和其他实验对比的DR方法更高的识别率。此外,与NPE和其他相关的DR算法相比,所提出的WNPEE对邻域个数参数的灵敏度降低,并且能够保留更多的高维数据的局部流形结构。
此外,论文提出了第二种DR方法,称为基于集成图的局部保持投影(EGLPP)。EGLPP扩展了WNPEE的集合框架,以增强LPP的降维性能。相似地,EGLPP构造了一个相邻的邻接图集合,最后使用集成的嵌入图来优化低维投影。
在WNPEE和EGLPP使用集合图嵌入框架的性能的推动下,我们最终提出了一种用于多视图数据集的广义多流形图集成嵌入框架(MLGEE)。MLGEE利用集成正则化项来考虑来自异构图的多流形信息,以考虑多视图数据分布的内在几何结构。针对EGLPP的四类人脸识别数据集和MLGEE对于手写数字识别,对象识别和人脸识别这六个多视图数据集的实验证明了本文方法相比其他DR技术,具有更好的稳健性。
最后,论文提出了基于局部均值表示的调和近邻分类(LMKHNCN)来增强KNN分类性能。LMKHNCN考虑了基于距离的近邻度以及k近邻的空间分布。在LMKHNCN中,最初找到每类中的k个最近的质心领域,其用于找到k个不同的局部均值向量,然后用于计算它们去查询样本的调和平均距离。之后,将查询样本分配给具有最小调和平均距离的类。对26个现实的数据集的实验结果表明,所提出的LMKHNCN分类器实现了较低的容错率,特别是在小样本情况下。此外,与相关的四个基于KNN的分类器相比,LMKHNCN对参数k的敏感度非常低。
在第一种DR方法中,我们提出了一种称为加权邻域保持集成嵌入(WNPEE)的新型DR方法。与NPE不同,所提出的WNPEE构造了多个近邻图的集成。通过近邻图的集成构建,WNPEE可以通过联合优化方式获得最优嵌入图的低维投影。对ORL,GeorgiaTech,CMUPIE和Yale四种人脸数据集的实验表明,WNPEE实现了比NPE和其他实验对比的DR方法更高的识别率。此外,与NPE和其他相关的DR算法相比,所提出的WNPEE对邻域个数参数的灵敏度降低,并且能够保留更多的高维数据的局部流形结构。
此外,论文提出了第二种DR方法,称为基于集成图的局部保持投影(EGLPP)。EGLPP扩展了WNPEE的集合框架,以增强LPP的降维性能。相似地,EGLPP构造了一个相邻的邻接图集合,最后使用集成的嵌入图来优化低维投影。
在WNPEE和EGLPP使用集合图嵌入框架的性能的推动下,我们最终提出了一种用于多视图数据集的广义多流形图集成嵌入框架(MLGEE)。MLGEE利用集成正则化项来考虑来自异构图的多流形信息,以考虑多视图数据分布的内在几何结构。针对EGLPP的四类人脸识别数据集和MLGEE对于手写数字识别,对象识别和人脸识别这六个多视图数据集的实验证明了本文方法相比其他DR技术,具有更好的稳健性。
最后,论文提出了基于局部均值表示的调和近邻分类(LMKHNCN)来增强KNN分类性能。LMKHNCN考虑了基于距离的近邻度以及k近邻的空间分布。在LMKHNCN中,最初找到每类中的k个最近的质心领域,其用于找到k个不同的局部均值向量,然后用于计算它们去查询样本的调和平均距离。之后,将查询样本分配给具有最小调和平均距离的类。对26个现实的数据集的实验结果表明,所提出的LMKHNCN分类器实现了较低的容错率,特别是在小样本情况下。此外,与相关的四个基于KNN的分类器相比,LMKHNCN对参数k的敏感度非常低。