基于字典学习的人脸特征提取及识别研究

来源 :上海交通大学 | 被引量 : 2次 | 上传用户:shilinjun2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸识别技术的研究已持续了数十年。大量的研究不断涌现,以解决人脸识别性能受到诸如光照、姿态、遮挡和训练样本不足等各种干扰因素的影响的困难。同时,高维的人脸图像使人脸识别任务更加困难,因为在高维欧氏空间中,特征之间距离更近会导致分类困难。因此,人脸识别的核心在于特征提取与特征分类。特征能否有效描述人脸信息将最终决定分类结果的好坏。如何将人脸通过一组完备特征进行有效的表达一直是学术界所追求的。一个完备特征集所在的空间,应能包含所有人脸信息。此外,能充分表征对象或人脸信息的特征应该不仅是完备的,且应该具有良好的可解释性。因此,本文主要研究并寻求一种技术手段,以实现完备的人脸特征的提取。稀疏表达(Sparse Representation,SR)自2006年以来长期获得计算机视觉领域的关注。其核心思想是在l0范数的约束下,通过一个面向任务的特定的(通常是过完备的)字典来实现信号的编码,同时,通过稀疏性约束抑制拉普拉斯噪声。字典学习(Dictionary Learning)技术最初便是基于稀疏表达的研究,其目标是学习出一组冗余的、完备的特征组成字典用于信号重构。其后,通过对字典表示系数引入监督项,字典学习被拓展至处理分类判别任务。同样,这样一组冗余的、完备的字典可以用来表征人脸信息。在提取出一组面向人脸识别任务的完备特征字典时,其还具有清晰的解释性,即不同字典原子对应不同类别或属性。但是,传统的字典学习算法过分依赖预先提取到的人脸特征。输入特征的好坏制约了字典学习算法的性能。针对上述问题,可以将特征学习与字典学习建立统一的优化目标,将人脸特征提取与字典学习同步进行。因此,本文借助字典学习技术来寻找完备的人脸特征,该特征的完备性依赖于字典学习算法本身所具有的性质。具体而言,本文的主要研究工作包括:1)提出基于稀疏嵌入的字典学习算法针对现有字典学习算法中稀疏表示系数约束的缺陷以及特征提取的不足,提出基于稀疏嵌入的字典学习算法(Sparse Embedded Dictionary Learning,SEDL)。该算法将高维人脸图像映射到低维线性子空间,并引入度量学习的概念,从而对稀疏表示系数加入有监督的约束项,最终训练出一组可以表征人脸类别信息的字典。同时,在特征从高维映射至低维的过程中,加入正交约束项,得到一组具有正交性的基特征。该正交性保证了原始信号在重构时具有高保真性,减少降维过程中引起的信息丢失。算法将基于正交线性子空间投影的线性特征提取与改进后的有监督的字典学习算法相结合,建立起完整的模型和代价函数,从而使降维与字典学习具有统一的目标,减少降维过程中有效人脸类别信息的丢失,并最终提升人脸识别的准确率。2)提出基于稀疏嵌入的共享字典学习及非线性特征提取算法大部分针对字典学习的研究局限于线性特征提取且对字典结构的研究仍有待深入。因此本文从非线性特征提取与字典结构两方面着手,对上一工作内容进行拓展及进一步的研究。首先关注字典结构对人脸特征提取以及识别的影响,将共享字典的概念引入到算法中,提出基于稀疏嵌入的共享字典学习算法(Shared Dictionary Learning with Sparse Embedding,SDLSE)。其次,从特征提取角度,用非线性特征提取模块代替正交线性特征提取,研究基于共享字典的非线性特征提取,将SDLSE拓展至非线性特征提取,提出基于稀疏嵌入的非线性共享字典算法(Nonlinear SDLSE,NSDLSE)。算法针对性地研究了字典结构对人脸特征提取以及识别的影响,并将共享字典的概念引入到算法中。通过对字典结构的划分,使共享字典中包含表情、光照及姿态等与类别无关的信息,从而实现完备的人脸特征提取。其次,在共享字典的基础上,引入非线性特征提取,改善字典学习算法依赖原始输入特征好坏的缺陷。3)提出新的深度学习网络层:结构化字典层虽然,通过交替迭代的方式(Alternating Iterative Method)求解上述优化问题,可使字典学习算法摆脱对原始特征好坏的依赖,但交替迭代方法面临参数初始化的问题,且深度卷积网络仅被用作一种特征提取的手段,其端到端的良好特性被忽略。因此,本文将深度卷积网络与字典学习算法中的优点相结合,建立统一的算法模型,提出新的深度学习网络层:结构化字典层(Dict Layer)。深度学习算法具有端到端(End-to-End)的特性,能将特征提取与分类同时实现,但其网络层的意义缺乏明确的解释。同时,字典学习算法具有清晰的解释性,有监督的结构化字典能有效解释字典表示系数的含义,即仅属于同一类别的系数被激活,但前端的特征提取制约了最终的性能。因此,本文将上述二者相结合,分析二者之间的相关性以及数学表达式上的相似性,将字典学习算法中较成熟的结构化字典技术引入全连层(Fully Connecting Layer,FC Layer),实现统一的模型和代价函数。该网络层可视为现有全连层的改进,能通过传统反向传递(Back Propagation,BP)进行训练,避免了传统交替迭代算法所带来的参数初始化等问题。算法将基于深度卷积网络的非线性特征提取与字典学习算法中的结构化信息相结合,建立了统一的模型,这项研究工作也为后续在深度学习算法中引入成熟的字典学习算法技术提供了一种可行性方案。
其他文献
选取我院2013年1月∽2014年2月采用动静脉内瘘行维持性血液透析患者86例,随机分为观察组和对照组各43例。对照组给予常规护理,观察组在对照组的基础上给予全方位护理。比较两
随着科技的进步和社会的发展,半导体金属氧化物类敏感元器件在石油、化工、矿产、汽车、环境监察等领域得到广泛应用。其中CuO、Cu2O等含Cu氧化物敏感材料近年来得到了较多关
影像叙事的方法不仅仅局限于故事本身,通过电影语言背后的"能指"和"所指",把电影分解成一个个"表意—传达—解释"的过程,并在不断的"编码"和"解码"中探求电影符号背后所隐含
目的:脑胶质瘤是目前最常见的侵袭性颅内原发恶性肿瘤,鉴于其高侵袭、高复发的特性,目前胶质瘤患者的中位生存期约为14.6个月,5年生存率仅为5.5%,严重影响着人类的生活质量和
电容去离子(CDI)技术是一种新型的用于脱盐的水处理技术。通过在具有多孔的电极材料两侧施加电压,使溶液中的离子吸附与两侧的电极上达到去除离子的目的。由于电容去离子具有
通过对新英格兰古迹保护协会发展历程的解读,分析其组织结构与运作机制,总结其基本保护原则与保护方式,并探讨该协会的发展对当代历史建筑保护的启示。在现代历史建筑保护语
工程教育专业认证是教育部为切实提升高等教育教学质量,推进工程教育国际互认和工程师资格国际互认的重要举措。工程教育专业认证的核心理念是"以学生为中心",提出以"能力培
近年来,随着我国房地产住宅市场的全面升温,房地产业正迅速发展为国民经济的一个重要产业群体,成为国民经济的基础性、先导性和支柱性产业。房地产住宅项目作为房地产企业发
研究了盐酸腐蚀时间对聚合物改性砂浆和混凝土微观结构的影响.研究发现,没有腐蚀的聚合物改性砂浆的砂子表面上具有宽度为10~15μm的界面过渡区,但聚合物的形态结构难以分辨;
伴随着国家对创新创业的重视,城市公共孵化器犹如雨后春笋一般出现。国内对公共孵化器导视系统设计研究甚少。笔者通过对岳麓科创港项目的设计,对导视系统进行了认真地研究。