论文部分内容阅读
人脸图像合成与分析是近年来机器学习和计算机视觉领域最热门的研究方向之一。随着深度学习技术的发展,人脸图像合成与分析技术取得了巨大突破。例如,当前人脸图像合成算法①经可以合成肉眼难辨真假的高清人脸图像,人脸图像分析中的人脸识别算法也已经在很多场景下超越了人类的准确率。人脸图像合成与分析技术已经广泛地进入社会各领域,成为关系国计民生的重要技术。然而,目前的人脸图像合成与分析算法在理论和应用上仍然面临着许多挑战和问题。比如,高分辨率人脸图像合成仍然是一个相对困难的任务,人脸图像的条件合成和编辑也面临着可控性和多样性的问题,人脸分析技术在非受控场景下的鲁棒性仍远远落后于人类,低质量人脸图像的复原和分析也需要继续研究。针对这些挑战,本文以生成模型为基础,从高清人脸图像合成、人脸图像条件合成与分析,和人脸图像复原三个方面对人脸图像合成与分析技术展开研究。本文取得的主要研究成果如下:1.提出了一种自省变分自编码器模型,用来合成包括人脸图像在内的高分辨率真实图像。该模型具有类似人类的自省能力,可以自己估计生成样本和真实数据之间的差异并作出改进。它为变分自编码器提供了一种全新的训练方法,以自省的方式联合训练推断网络和生成网络。在训练过程中,对于真实数据,采用标准变分自编码器的变分下界目标函数来同时对推断网络和生成网络的参数进行优化;对于生成样本,推断网络和生成网络分别最小化和最大化其对应的近似后验与先验之间的KL散度,通过最小化最大化博弈来学习数据先验知识。该模型一方面不需要引入额外的判别器,对抗学习发生在变分自编码器内部,从而简化了网络结构;另一方面,使用单阶段而非多阶段的方式训练高分辨率图像模型,简化了训练复杂度。实验表明,该模型结合了变分自编码器和生成对抗网络的优点,既能进行稳定的训练,也能学习到良好的流形表达,同时可以合成高分辨率的清晰图像(比如1024 × 1024像素大小的CelebA人脸图像)。2.提出了两种基于变分表达的人脸图像合成与分析算法,即解耦判别变分自编码器模型和基于解耦变分表达的异质人脸识别方法。第一种模型将变分自编码器的隐变量分解为一系列变分语义单元,每一个单元都和某个特定的人脸属性关联。当某个属性标签为正时,最小化其对应变分语义单元关于给定先验分布的KL散度;当该标签为负时,则最大化其对应的KL散度。通过这种方式,将每一个变分语义单元与特定的人脸属性关联起来,使得模型既可以预测人脸属性,又可以根据属性标签控制人脸合成。另外,该模型通过引入互信息最小化来对这些单元进行解耦,通过引入自省对抗来提高生成图像的质量。实验表明,该模型既可以学习到鲁棒的特征,提高人脸属性预测的准确率,又能够实现准确的属性合成,提高人脸属性合成的可解释性和多样性。第二种方法是一种基于解耦变分表达的异质人脸识别方法。该方法将异质人脸数据建模为域不变的身份信息和域相关的变化信息。通过变分自编码器的变分下界来优化近红外和可见光的近似后验,可以学习到解耦的变分表达。另外,通过均值差异最小化来约束不同域之间的身份信息,利用相关对齐约束来进一步减小域差异,可以学习到更加紧凑且具有判别性的特征表达。实验表明,该方法可以在训练数据有限的情况下,通过合成新的近红外和可见光样本,提高异质人脸识别的精度。3.提出了三种基于小波变换的人脸图像复原方法,即小波域超分辨率卷积神经网络、小波域超分辨率生成对抗网络和小波域深度变焦网络。第一种方法首次将小波变换和卷积神经网络结合,将图像超分辨率问题转化为深度学习框架下的小波系数预测问题。通过使用小波域损失函数来优化小波域卷积神经网络,该方法可以在保持人脸图像全局拓扑信息不变的情况下恢复丰富的纹理细节。第二种方法将小波域人脸超分辨率方法从卷积神经网络扩展到生成对抗网络,同时使用小波域对抗损失函数和身份保持损失函数来分别产生更加真实的小波系数和恢复身份信息。实验表明,该方法不仅可以合成更加真实的人脸图像,而且能够显著提高低分辨率人脸的识别精度。第三个工作针对更一般的人脸图像复原问题,对小波域方法做出了进一步的改进。该工作首先建立了一个由手机和数码相机成对采集的大规模深度变焦人脸数据集,通过真实的低质量图像而非模拟退化图像对人脸图像复原模型进行训练。其次,提出小波域深度变焦网络,进一步挖掘不同频段小波之间的共享信息来恢复更多的纹理细节,同时引入人脸结构先验来克服数据非严格对齐的问题。实验表明,利用深度变焦人脸数据集训练的小波域深度变焦网络,可以显著提高对真实场景采集的低质量人脸图像复原的鲁棒性。