论文部分内容阅读
基于图像的人脸分析是计算机视觉中非常重要的任务,它可以广泛应用在日常生活中,比如刷脸购物,影视动画,医疗美容等等。而人脸检测是人脸分析的非常重要的一个任务,所有人脸分析任务的前提条件是从图像中检测出人脸。而人脸分析中需要处理的大姿态、模糊、遮挡等条件人脸对于人脸检测任务一直是该领域内的难题。所以在本文中,先对这些挑战条件在人脸检测中的难题进行探索研究。对于人脸分析,三维人脸提供了不受光照和姿态影响的几何和纹理信息,而现有的基于硬件的三维人脸采集方式应用受限制,本文中我们提出基于单张图像的三维人脸形状,纹理重建。对于人脸检测,近年来由于深度神经网络以及高质量训练数据的出现,性能得到了大幅度的提升。但是小尺寸、大姿态、遮挡人脸对于基于深度学习的人脸检测模型仍然非常具有挑战性。为了处理挑战条件下人脸检测,我们在本文中对检测框架中最核心的两部分:候选框生成和分类器分别进行了改进提升。为了提高候选框生成的质量,我们提出增强候选区域网络,该网络挖掘深度卷积网络图中的位置信息,能够大幅度提升困难条件下人脸检测性能。为了提升分类器的性能,我们提出在线困难候选区域挖掘用于训练,在测试过程中并无额外开销。除此之外我们还提出了离线困难图片挖掘进一步提升分类器的性能。我们的方法在公开数据集FDDB、WIDER FACE、Pascal Faces以及AFW上均取得当时先进的性能。从图像中检测人脸之后,开始进行人脸三维分析,我们在三个方面进行了探索研究:(1)三维人脸细节重建,(2)三维人脸纹理重建以及(3)三维人脸纹理形状联合重建。在(1)三维人脸细节重建的任务中,从单张图像中重建出人脸三维细节非常具有挑战性,因为它本身是一个病态问题。基于参数化统计模型的方法因为其低秩的性质,无法重建三维人脸细节信息。而基于阴影恢复形状的方法严重依赖于初始形状,并且受到光照的影响。同时,对于深度模型来说,目前缺乏公开可以用于训练的高质量RGB-D数据。为此,本文提出一个三阶段的由粗糙到精细的DF~2Net深度模型。本文在深度网络中用自监督的训练方式从输入RGB图像中挖掘三维细节信息。在数据方面,我们用生成的方式获得可以用于深度模型的高质量数据库。我们在公开的数据集BU-3DFE进行定量分析和定性分析显示出我们的方法比当前先进算法表现出更加鲁棒和准确的细节重建能力。目前学术界更加关注的更多的是形状重建,对于(2)三维人脸纹理重建任务而言,目前依然是一个充满挑战的任务。首先,现阶段学术界缺乏公开真实感三维纹理训练数据库,从而导致目前主流的方法是基于统计模型的纹理重建。而基于统计模型的纹理重建,由于低秩表达能力的限制,重建纹理与输入人脸相差较大。在本论文中,我们在缺乏三维人脸纹理训练数据的情况下,用非统计模型的方式直接重建每一个顶点的三维纹理。为此,我们提出一种新颖的基于多视角自监督的深度学习架构,用来从单张图像中重建三维人脸纹理。为了重建出高质量的三维纹理,我们提出了一种新颖的多视角一致性损失函数。本文方法在Celeb2,Multi-PIE,Vox Celeb2等公开数据集上都取得了先进的性能。最后本文联合三维形状与纹理进行重建,以获得更加丰富的信息。对于(3)三维人脸纹理形状联合重建,目前人脸三维重建方法对于三维形状和输入二维图像的对应(2D-3D Correspondence,简称2D-3D对应)做的并不好,这限制了它在纹理重建,密集关键点定位等领域的应用。原因在于通常的基于低秩表达的方法(例如三维形变模型方法,简称3DMM)用几百维的参数去表示几万个顶点的位置,导致了2D-3D对应存在非常大的误差。同样,目前基于密集表达的方式因为其训练数据来源于统计模型,所以它依然是一个低秩表达的方式。因此本文提出一个深度形状重建与纹理填充网络(Shape Reconstruction and Texture Completion Network,简称SRTC-Net)。在SRTC-Net框架中,我们首先用一个对应网络(Corresponding Network,简称C-Net)把复杂的2D-3D对应问题分解为两个更容易处理的子问题:前景背景分割与投影归一化位置编码(Projected Normalized Coordinate Code,简称PNCC)回归的问题。有了准确的2D-3D对应,能重建出高质量的人脸纹理,并且从该纹理中挖掘三维细节结构信息。我们首先在Multi-PIE数据集中验证了我们的方法与当前前沿方法相比,能更加准确的预测2D-3D对应。此外本文重建出的纹理能大幅度提升大姿态人脸识别任务性能,在Multi-PIE,CFP公开数据库上均取得了先进的结果。在定性分析中,本文重建出的三维人脸比低秩表达的方法能重建出更多的细节。