论文部分内容阅读
随着人工智能(Artificial intelligence)和计算机视觉(Computer vision)等技术的飞速发展,让机器或计算设备拥有感知图像内容的能力日益成为当今热点研究课题。其中人脸图像因其丰富的信息和广阔的应用前景更是一个活跃的分支。人脸图像识别只要是指通过对人的面部图像、视频或图片和视频的集合进行分析,自动的推断其身份、表情以及年龄、性别等属性。人脸图片通常糅合了包括身份、表情、年龄、性别、光照、角度等各种信息,如何提取与识别任务相关的特征(例如身份信息对应人脸识别,表情信息对应表情识别)是当前基于深度学习的模式识别算法的主要研究方向。本文进一步的探究了如何可控的引入对某些不相关属性的不变性先验知识,使得提取出的针对主识别任务的特征有更好的可辨别性和泛化能力。例如表情识别的特征应该对身份变化鲁棒,而身份识别的特征应该对表情、光照、化妆等变化鲁棒。针对这一目标以及人脸表情识别和人脸识别这两个重要应用,本文提出了自适应深度度量学习以及对抗训练两种方法用以解构表情与身份信息或身份与某些属性信息。随着数字媒体内容的爆炸性增长,使用图片和视频的集合进行身份识别更符合实际的生物特征识别应用。例如查询图片或视频帧可以从多个摄像头所拍摄到的某人所获得,而候选图片或视频帧也可由该人历史上各种证件照和其他场合所拍摄照片组成。相较于传统的图片与图片,或视频与视频的相似度对比,该设定可以提供更丰富的信息,但也给信息融合带来了挑战。本文提出了一种基于增强学习算法的图片集人脸识别方案。本文的主要贡献可概括为:1.人类的面部表情是传递情感信息的重要途径。基于自适应度量学习的去除身份信息干扰的人脸(图片/视频)表情识别特征提取。第二章提出了一种新的深度尺度学习算法(N+M)元组簇损失,解决了该领域长期存在的锚点选择问题并大大减少了运算量。其阈值参数可自适应学习。通过合理的设置负样本为同一个体的其他表情图像能有效地实现难样本挖掘,并明确的消除身份信息的干扰。在CK+,MMI和SFEW数据集上的实验结果表明其可以有效的利用人脸表情数据库中常有的身份标记从而有效地提高表情识别任务的精度。2.考虑到来自同一个个体的中性表情图片是较好的参考图像,但不是所有数据集中都普遍存在,第三章提出了一种难样本生成方法并配以径向度量学习。通过将查询图片与基于其生成的同身份中性脸参考图片进行比较而去除身份信息的影响。其难样本生成是基于像素级对抗生成网络以去除表情、姿态等属性干扰的身份不变归一化脸生成。通过在CK+,MMI和SFEW数据集上的实验表明难样本生成可以利用远大于表情识别库的人脸身份识别库中的正面中性图片以形成参考图像的先验知识,其不仅能提升识别效果,还能相较于传统的度量学习大大缩短训练时间。3.第四章系统性的总结了人脸图片中各因素之间的关系,并定义到更广泛的多标签数据上。提出了一种基于特征级对抗训练的解构网络,将输入图片分解为对主识别任务(例如身份识别)具有辨识力的特征,期望对其鲁棒的有标签语义属性(如可表情、光照、化妆等属性),以及期望对其鲁棒的无标签或难以量化的因素(如背景等)。三者互补而又互相边际独立。4.第五章提出了一种基于深度增强学习的算法用于探索集中各图片的重要性以及互补性。通过在IJB-A/B/C系列基于集的人脸识别数据集,基于视频的Celebrity-1000数据集,以及行人重试别任务上的实验证实了该算法的有效性。