论文部分内容阅读
人脸识别技术的研究已持续了数十年。大量的研究不断涌现,以解决人脸识别性能受到诸如光照、姿态、遮挡和训练样本不足等各种干扰因素的影响的困难。同时,高维的人脸图像使人脸识别任务更加困难,因为在高维欧氏空间中,特征之间距离更近会导致分类困难。因此,人脸识别的核心在于特征提取与特征分类。特征能否有效描述人脸信息将最终决定分类结果的好坏。如何将人脸通过一组完备特征进行有效的表达一直是学术界所追求的。一个完备特征集所在的空间,应能包含所有人脸信息。此外,能充分表征对象或人脸信息的特征应该不仅是完备的,且应该具有良好的可解释性。因此,本文主要研究并寻求一种技术手段,以实现完备的人脸特征的提取。稀疏表达(Sparse Representation,SR)自2006年以来长期获得计算机视觉领域的关注。其核心思想是在l0范数的约束下,通过一个面向任务的特定的(通常是过完备的)字典来实现信号的编码,同时,通过稀疏性约束抑制拉普拉斯噪声。字典学习(Dictionary Learning)技术最初便是基于稀疏表达的研究,其目标是学习出一组冗余的、完备的特征组成字典用于信号重构。其后,通过对字典表示系数引入监督项,字典学习被拓展至处理分类判别任务。同样,这样一组冗余的、完备的字典可以用来表征人脸信息。在提取出一组面向人脸识别任务的完备特征字典时,其还具有清晰的解释性,即不同字典原子对应不同类别或属性。但是,传统的字典学习算法过分依赖预先提取到的人脸特征。输入特征的好坏制约了字典学习算法的性能。针对上述问题,可以将特征学习与字典学习建立统一的优化目标,将人脸特征提取与字典学习同步进行。因此,本文借助字典学习技术来寻找完备的人脸特征,该特征的完备性依赖于字典学习算法本身所具有的性质。具体而言,本文的主要研究工作包括:1)提出基于稀疏嵌入的字典学习算法针对现有字典学习算法中稀疏表示系数约束的缺陷以及特征提取的不足,提出基于稀疏嵌入的字典学习算法(Sparse Embedded Dictionary Learning,SEDL)。该算法将高维人脸图像映射到低维线性子空间,并引入度量学习的概念,从而对稀疏表示系数加入有监督的约束项,最终训练出一组可以表征人脸类别信息的字典。同时,在特征从高维映射至低维的过程中,加入正交约束项,得到一组具有正交性的基特征。该正交性保证了原始信号在重构时具有高保真性,减少降维过程中引起的信息丢失。算法将基于正交线性子空间投影的线性特征提取与改进后的有监督的字典学习算法相结合,建立起完整的模型和代价函数,从而使降维与字典学习具有统一的目标,减少降维过程中有效人脸类别信息的丢失,并最终提升人脸识别的准确率。2)提出基于稀疏嵌入的共享字典学习及非线性特征提取算法大部分针对字典学习的研究局限于线性特征提取且对字典结构的研究仍有待深入。因此本文从非线性特征提取与字典结构两方面着手,对上一工作内容进行拓展及进一步的研究。首先关注字典结构对人脸特征提取以及识别的影响,将共享字典的概念引入到算法中,提出基于稀疏嵌入的共享字典学习算法(Shared Dictionary Learning with Sparse Embedding,SDLSE)。其次,从特征提取角度,用非线性特征提取模块代替正交线性特征提取,研究基于共享字典的非线性特征提取,将SDLSE拓展至非线性特征提取,提出基于稀疏嵌入的非线性共享字典算法(Nonlinear SDLSE,NSDLSE)。算法针对性地研究了字典结构对人脸特征提取以及识别的影响,并将共享字典的概念引入到算法中。通过对字典结构的划分,使共享字典中包含表情、光照及姿态等与类别无关的信息,从而实现完备的人脸特征提取。其次,在共享字典的基础上,引入非线性特征提取,改善字典学习算法依赖原始输入特征好坏的缺陷。3)提出新的深度学习网络层:结构化字典层虽然,通过交替迭代的方式(Alternating Iterative Method)求解上述优化问题,可使字典学习算法摆脱对原始特征好坏的依赖,但交替迭代方法面临参数初始化的问题,且深度卷积网络仅被用作一种特征提取的手段,其端到端的良好特性被忽略。因此,本文将深度卷积网络与字典学习算法中的优点相结合,建立统一的算法模型,提出新的深度学习网络层:结构化字典层(Dict Layer)。深度学习算法具有端到端(End-to-End)的特性,能将特征提取与分类同时实现,但其网络层的意义缺乏明确的解释。同时,字典学习算法具有清晰的解释性,有监督的结构化字典能有效解释字典表示系数的含义,即仅属于同一类别的系数被激活,但前端的特征提取制约了最终的性能。因此,本文将上述二者相结合,分析二者之间的相关性以及数学表达式上的相似性,将字典学习算法中较成熟的结构化字典技术引入全连层(Fully Connecting Layer,FC Layer),实现统一的模型和代价函数。该网络层可视为现有全连层的改进,能通过传统反向传递(Back Propagation,BP)进行训练,避免了传统交替迭代算法所带来的参数初始化等问题。算法将基于深度卷积网络的非线性特征提取与字典学习算法中的结构化信息相结合,建立了统一的模型,这项研究工作也为后续在深度学习算法中引入成熟的字典学习算法技术提供了一种可行性方案。