论文部分内容阅读
随着科技的进步,我们所采集到的图像数据相较于以前不仅数量在变大而且维数和复杂性也在增加。同时,这些海量复杂的数据基本上都是非线性的,传统的学习算法无法有效的度量数据之间的相似性,而黎曼流形学习可以较好的抽取到这些数据中所蕴含的非线性结构特征。此外,传统的分类算法都是基于单幅图像的,而基于图像集的分类问题目前受到研究者们的广泛关注,主要是由于图像集相较于单幅图像具有更加优异的灵活性和容错性,因此,本文的研究重点主要集中在黎曼流形学习及其在图像集中的分类应用上。本文从已有的基于图像集分类的流形学习算法出发,针对流形学习中的核方法、降维方法以及多模型度量学习方法进行研究,提出了改进算法。本文的主要贡献为:(1)从理论上详细的介绍了几个经典的基于图像集分类的流形学习算法的基本思想以及实现步骤,并分析了它们各自的优缺点。然后通过在几个基准数据集上进行实验,直观的分析和比较它们之间在分类能力和计算时间上的差异。同时,对于几个经典的黎曼度量也介绍了它们的具体定义形式。(2)最近在生物神经学领域中的研究表明生物神经中的感知理论同黎曼流形相符合,同时相关研究发现Log-Gabor滤波器与人眼的非线性对数特性相一致。由于这两者的结合符合人类视觉的感知过程,因此提出了基于Log-gabor滤波特征的黎曼流形图像集分类算法。引入Log-gabor滤波器的目的是为了有效的解决二阶统计特性无法充分的捕捉到复杂图像的特征信息的问题,同时多尺度多方向的滤波特征也可以较为有效的消除原始图像中的冗余信息,从而提高了所学特征的判别能力。该算法在多个数据集上都取得了较好的实验结果,从而验证了其有效性。(3)基于图像集分类的流形降维算法的核心思想是把一个高维的流形直接降维到一个维数相对较低同时判别信息更加充分的新流形上,且在多个实验数据集上都取得了较好的结果。例如Grassmann流形上的投影度量学习(Projection Metric Learning,PML),该算法是基于投影度量(Projection Metric,PM)并且使用黎曼共轭梯度(Riemannian Conjugate Gradient,RCG)算法优化目标函数。但是对于复杂的数据集如YTC,其分类结果不佳,同时RCG算法的时间效率较差。鉴于上述缺点,提出基于切空间判别学习的流形降维算法,该算法首先通过添加扰动的方式将Grassmann流形上的元素变换到SPD流形,然后利用对数欧氏度量(Log-Euclidean Metric,LEM)将其映射到一个切空间中,并提出了一个快速的基于特征值分解的迭代优化算法求解目标函数。其在多个数据集上相较于PML等算法都得了更好的实验结果。(4)传统的流形学习算法针对给定的图像集通常都采用单模型进行建模,较难应付复杂环境下的分类任务。针对上述情况,提出多模型建模和度量学习相结合的方法。首先把图像集分别利用二阶统计特性和线性子空间建模到SPD流形以及Grassmann流形,以提供互补的特征信息。对于异构的特征空间,利用黎曼核函数将它们映射到高维的Hilbert空间。最后通过度量学习的方法将它们在低维公共的子空间中进行融合,从而提高了所学特征的判别能力。多个基准数据集上所取得的较好的实验结果验证了该方法的有效性。