基于深度学习的单样本人脸识别算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:hongwei3330857
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相比于其他的生物特征,人脸识别具有非强制性、高通用性等优点,这使得人脸识别技术在安防监控和视觉跟踪等领域都得到了广泛应用。但是在一些特殊应用场合下,比如海关护照验证、公安执法系统,出于采集难度和隐私政策考虑,对于每一个人只能收集到一张人脸图像(例如证件照人脸图像)作为训练样本,称这种情况为单样本人脸识别。在单样本约束下,许多现有的人脸识别算法将无法正常工作。因此论文针对单样本约束下的人脸识别进行研究。
  当前大多数针对单样本人脸识别的算法仍然是传统方法。而与传统方法相比,基于深度学习的人脸识别算法可以提取到鲁棒性更强的人脸特征,获得更好的识别效果。因此论文选择基于深度学习进行人脸识别算法的设计。
  论文的主要研究工作如下:
  针对单样本人脸识别训练样本不足的问题,设计了用于生成指定人脸的不同表情人脸图片的EX-GAN模型以进行样本扩充。该模型利用面部动作单元编码对生成表情进行限制,相比于离散的表情标签来说,可以处理的表情更加的连续和丰富。为了提高整个模型对于图片背景变化、光照变化和遮挡的鲁棒性,添加了注意力机制,使得整个网络的作用集中于与表情变化相关的区域。模型生成的图片需要能够保留足够的人脸身份特征信息才能用于样本扩充,因此设计了结构相似度损失,与循环一致损失配合使用。在CelebA和RaFD数据集上的实验结果表明,EX-GAN模型对于有遮挡的和非正面的输入仍可以在保留足够的人脸身份特征信息的前提下生成对应的目标表情。
  从网络结构和损失函数两个角度对ResNet进行了改进。通过SE模块、批量归一化和Dropout等策略对原始网络结构进行了改进,提升了网络的训练速度和抗过拟合能力。针对ResNet所使用的softmax损失函数对类间可分离关注度不够的问题,设计了ER损失函数以获得具有类间可分离性的判别人脸表示。
  设计了一个适合于单样本条件约束的人脸识别框架,将已构建完成的特征提取模型、基于EX-GAN模型的样本扩充与基于模型的迁移学习整合到一个统一的框架中。首先使用具有大量训练样本的基础训练集对特征提取网络进行预训练,使用验证网络筛选保留足够身份特征的扩充样本,然后使用扩充后的单样本训练集对预训练的特征提取网络进行微调。在LFW数据集和MS-Celeb-1Mlow-shotlearningChallenge数据集上的一系列实验表明设计的单样本人脸识别框架的优越性能。
其他文献
作为一门新兴学科,光子技术以其极高的信息容量和效率、极快的响应速度、极大的存储能力、极强的互连能力与并行能力,取得了快速发展。在光学传感、信息传输、高速信息处理、信息存储与显示等方面得到了广泛的应用。光子技术与电子技术形成相互补充、共融与促进的关系,使其在商品市场的份额逐年快速增长。光子生物化学传感已成为当今光子学研究的重要领域之一。光子技术的快速发展极大地提高了光子生物化学传感的性能,特别是在光
该论文利用超高真空扫描隧道显微镜(UHV STM)研究了室温条件下沉积在Si(111)7×7重构表面不同覆盖度的Ag粒子.实验结果表明,低覆盖度时的Ag粒子主要有A、B两种类型,其中A型Ag粒子呈环状结构,最小的A型Ag粒子由3个Ag原子组成;而B型Ag粒子则是由两层Ag原子构成.高覆盖度时Ag粒子的生长过程为层岛混合生长(Stranski-Krastanov)模式.该文还研究了不同蒸发速率对Ag
基于音视频分析的全天智能监控系统具有广泛的应用,近年来日益得到了关注。目前视频监控已得到了充分的发展,相对而言,音频监控及其核心技术音频场景(或音频事件)分析还处于初级阶段,有待进一步发展。与此同时,音频场景识别/分析在智能家居领域得到广泛应用。为此,本文以家居环境下的音频场景分析问题作为研究对象,从以下几个方面开展了创造性工作。  1)建立家居音频场景数据库。该数据库包括2个城镇家庭和2个农村家
近年来,社区安防监控视频在“平安城市建设工程”中发挥着越来越重要的作用。随着布设范围的扩大、视频清晰度的提高,监控数据飞速增长,给传输和存储带来巨大压力。当前高清监控视频以宽带、蜂窝网络和Wi-Fi为主的接入方式,成本居高不下,制约了摄像机的布设发展。以NB-IoT(窄带物联网)为代表的智慧物联网技术的兴起,给监控系统的扩展创造了技术条件。其广覆盖、多连接、低功耗和低成本的特点,具备很好的无线接入
学位
移动通信网络的覆盖率不断提升,人们已习惯随时随地通话,因而通话场景更加复杂多样,导致环境噪声等对用户通话体验的影响更加突出。本文专注于解决近端通话场景中听音方受周围环境噪声影响听不清远端发送的语音的问题,解决这类问题的算法被称作语音可懂度增强算法。  语音可懂度增强算法通常分为两类:基于规则机制的算法和基于统计机制的算法。基于规则机制的算法利用经验主义或者度量标准构建语音时频域能量调整规则。基于统
该文介绍了生物特征识别相对于传统识别方法的优势.详细描述了虹膜的结构,说明了虹膜纹理具有高度的唯一性和稳定性,获取虹膜图像具有很好的非侵犯性,证明了虹膜识别是一种很有前途的生物特征识别方法.总结了目前国内外主要的虹膜识别系统研究进展情况,包括虹膜图像的获取,虹膜图像的定位和具体的识别编码方法.详细讨论了获取虹膜图像应考虑的各种因素,并给出了两个图像获取系统的例子加以说明.介绍了基于灰度级的虹膜定位
学位
脉冲耦合神经网络(Pulse Coupled Neural Networks,PCNN),是以生物视觉系统为基础的空时编码新型人工网络模型,具有动态变阈值、非线性调制耦合、同步脉冲发放、动态脉冲发放及时空总和等特性,使得具有相似输入的神经元同步发放脉冲,弥补输入数据的空间不连贯性,保留图像的区域信息,因此被广泛的应用在图像处理领域。双边滤波(Bilateral Filter)是一种非线性的滤波方法
学位
计算机视觉是当前人工智能发展最迅速的领域之一。进入深度学习发展阶段后,计算机视觉在自动驾驶、人脸识别、无人机以及工业和医学检测领域都取得了令人瞩目的成就。并形成了包括图像分类、图像分割和目标检测在内的一系列关键技术。在这些领域里,目标检测是一项十分基础而又重要的工作。由于目标的非结构化输出,目标检测技术十分具有挑战性,一直是人们研究的焦点之一。论文基于SSD(Single Shot Multi B
学位
作为机器人领域的一个分支,外骨骼机器人在负重携行、医疗康复、消防救援、勘探考察等领域具有广泛的应用前景。外骨骼机器人领域涉及到模式识别、智能控制和信息处理等方面的理论和技术。作为一种人机结合的穿戴式设备,在行走过程中会出现动作不协调,外骨骼机器人对穿戴者有拖拽感等问题。而高效率、高精度的人体步态预测和识别算法是解决上述问题的关键因素之一。本论文是在科技部重点研发计划智能机器人专项下针对上述问题展开
在核工业的生产过程中,通常会产生对人体和环境具有危害或放射性的物质。热室是专门处理这类危险物质的封闭型设施。为防止沾染了放射性的空气和气溶胶无控制地向热室外的实验室空间逸散,必须采用机械通风形成室内负压。建立一个具有较高模拟精度的热室环境模型,确定热室通风系统中室内负压随流量变化的规律和空间分布的规律,是优化热室环境调控的前提。论文以单间热室为研究对象,以室内负压为控制目标,基于计算流体力学(Co
学位