论文部分内容阅读
人脸识别是根据人的脸部特征信息进行身份确认的过程。伴随着人工智能技术的发展,人脸识别技术越来越受到学术界和产业界的广泛关注。人脸识别的关键就在于怎样学习区分性和鲁棒性的人脸特征表达。目前,基于卷积神经网络(Convolutional Neural Networks,CNN)的人脸表达学习是人脸识别领域的主流方法,该方法利用CNN的深度结构通过逐层非线性映射的方式学习有效的人脸表达,在条件受控的人脸识别任务(LFW)中已经达到甚至超过了人工识别的结果,然而在复杂环境下的人脸识别任务(IJB-A)中仍然面临着严峻的挑战,仍需进一步研究新的技术和方法来学习区分性和鲁棒性更强的人脸特征表达,以提升复杂环境下的人脸识别性能。本文针对复杂环境下的人脸识别问题,借助于CNN卷积层输出高效地提取人脸局部深度特征(Local Deep Features,LDF)集合,在此基础上从统计建模的角度出发有效聚合人脸LDF,从而得到有效的人脸表达并应用于人脸识别系统中。主要研究内容包含如下:首先,本文有效利用CNN网络的局部感知特性,卷积层输出特征映射图的每个空间单元都对应人脸图像中特定的局部感受域,每个空间单元上提取的特征向量可以表征原始图像中某个局部区域的特性。借助于CNN的卷积层激活输出能够高效地提取人脸LDF集合,不仅有效地克服人脸全局深度特征缺乏几何不变性的问题,并且缓解了局部特征学习过程中对脸部特征点精确定位算法的依赖。其次,本文提出了结合CNN不同卷积层信息的概率视觉码本建模的Fisher Vector(FV)编码方法实现对LDF的有效聚合,其中一个卷积层用作人脸LDF提取,紧接着一个卷积层用作LDF的指示变量,指导LDF按照不同的视觉单元进行聚类,每个聚类中的特征分布采用单高斯建模,得到基于CNN的混合高斯模型(Gaussain Mixture Model,GMM)视觉码本(CNN-GMM),有效改善了传统GMM模型对高维LDF分布的建模能力,显著提升人脸识别系统的性能。鉴于CNN-GMM模型没有对人脸LDF的维间相关性信息进行有效建模,本文还提出了基于混合因子分析(Mixtures Factor Analyzers,MFA)模型的FV编码方法,利用具有全协方差矩阵的GMM模型对人脸LDF分布进行建模,并推导得到MFA模型,将其作为概率视觉码本提取人脸FV表达,进一步提升识别系统的性能。再者,为了有效聚合人脸LDF的同时降低人脸表达的维度,本文提出了基于全变量建模(Total Variability Modelling,TVM)的人脸低维子空间特征表达学习方法。采用不同的通用背景模型分别构建TVM系统,将人脸高斯超矢量表达转换成低维子空间中的全变量因子表示(iVector),维持性能优势的同时极大降低特征表达的维数。最后,本文提出一种交叉双线性网络结构有效结合CNN不同层信息,将前端LDF提取和后端人脸表达学习集成到统一的CNN中,并通过BP算法有监督地对两个模块进行同步优化,优势互补,较人脸全局深度特征表达,该方法学习得到的人脸表达性能优势明显。