论文部分内容阅读
随着计算机科学技术的不断发展,基于人脸图像相关的识别技术已经成为计算机视觉领域中的热门研究问题。基于人脸图像的年龄估计技术和表情识别技术在日常生活和商业市场中有着广泛的应用前景,可以用于权限控制、个性化服务、视频推荐等方面。但是人脸分析的一些方法往往在人脸的理想状态下进行识别,而真实场景下往往会受到很多环境因素的影响。最常见的应用场景是视频监控场景下的人脸分析,因此如何解决视频监控场景下存在的人脸遮挡、人脸尺度变化、人脸动态变化等问题进行人脸分析是一项艰巨的任务。本文主要基于深度学习技术,针对上述问题对人脸分析相关内容进行改进,主要包括人脸检测、年龄估计和表情识别,论文的具体工作如下:(1)针对人群密集情况下存在的人脸遮挡问题,提出了一种改进的多任务级联网络(Multi-task Cascaded Convolutional Neural Networks,MTCNN)人脸检测算法。首先,建立MTCNN网络结构并生成所需要的训练样本,然后,对每级网络进行逐个训练。在训练样本生成和网络训练过程中,为了降低候选框的预测数量,通常会删除重叠度较大的候选框,此步骤通常使用非极大值抑制(Non Maximum Suppression,NMS)算法。本文对非极大值抑制算法进行改进,对置信度重置函数进行优化,以衰减的方式重置与检测框有重叠的候选框置信度分数,同时采用可分离卷积代替传统卷积对网络结构进行改进。实验表明,改进的MTCNN人脸检测算法针对人脸遮挡的情况下检测率有了一定提升,同时大大的减少了参数量。(2)针对同一人脸不同尺度情况下的人脸年龄估计会有一定的偏差的问题,提出了一种多尺度多阶段的人脸年龄估计算法。首先,将预处理后的样本采用双线性插值的方法进行多尺度处理,得到多个尺度的样本;然后将不同尺度的样本分别输入到特征提取网络,分阶段进行特征融合;最后将多个阶段的年龄预测值相加得到最终的年龄回归预测值。实验表明,多尺度样本的输入能够提高年龄估计的准确率,在IMDB和WIKI数据集的MAE值分别为6.44和6.31,多阶段的回归预测使得网络模型大小仅有0.51MB,所以本文的方法实现了在模型较小且不同尺度的情况下能准确估计人脸年龄。(3)针对不同模态提取表情特征的差异性,提出了基于模态融合的视频表情识别算法。首先,设计了模态融合算法框架;然后,分别采用C3D和CNN-LSTM的方法提取图像序列的时空特征;最后,分别研究了特征融合和结果融合两种不同的融合策略。实验表明,模态融合的结果比单模态的识别率高,三模态融合比二模态融合的识别率高,特征融合比结果融合的识别率高。