基于深度学习的人脸属性识别研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zzh787
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的不断发展,基于人脸图像相关的识别技术已经成为计算机视觉领域中的热门研究问题。基于人脸图像的年龄估计技术和表情识别技术在日常生活和商业市场中有着广泛的应用前景,可以用于权限控制、个性化服务、视频推荐等方面。但是人脸分析的一些方法往往在人脸的理想状态下进行识别,而真实场景下往往会受到很多环境因素的影响。最常见的应用场景是视频监控场景下的人脸分析,因此如何解决视频监控场景下存在的人脸遮挡、人脸尺度变化、人脸动态变化等问题进行人脸分析是一项艰巨的任务。本文主要基于深度学习技术,针对上述问题对人脸分析相关内容进行改进,主要包括人脸检测、年龄估计和表情识别,论文的具体工作如下:(1)针对人群密集情况下存在的人脸遮挡问题,提出了一种改进的多任务级联网络(Multi-task Cascaded Convolutional Neural Networks,MTCNN)人脸检测算法。首先,建立MTCNN网络结构并生成所需要的训练样本,然后,对每级网络进行逐个训练。在训练样本生成和网络训练过程中,为了降低候选框的预测数量,通常会删除重叠度较大的候选框,此步骤通常使用非极大值抑制(Non Maximum Suppression,NMS)算法。本文对非极大值抑制算法进行改进,对置信度重置函数进行优化,以衰减的方式重置与检测框有重叠的候选框置信度分数,同时采用可分离卷积代替传统卷积对网络结构进行改进。实验表明,改进的MTCNN人脸检测算法针对人脸遮挡的情况下检测率有了一定提升,同时大大的减少了参数量。(2)针对同一人脸不同尺度情况下的人脸年龄估计会有一定的偏差的问题,提出了一种多尺度多阶段的人脸年龄估计算法。首先,将预处理后的样本采用双线性插值的方法进行多尺度处理,得到多个尺度的样本;然后将不同尺度的样本分别输入到特征提取网络,分阶段进行特征融合;最后将多个阶段的年龄预测值相加得到最终的年龄回归预测值。实验表明,多尺度样本的输入能够提高年龄估计的准确率,在IMDB和WIKI数据集的MAE值分别为6.44和6.31,多阶段的回归预测使得网络模型大小仅有0.51MB,所以本文的方法实现了在模型较小且不同尺度的情况下能准确估计人脸年龄。(3)针对不同模态提取表情特征的差异性,提出了基于模态融合的视频表情识别算法。首先,设计了模态融合算法框架;然后,分别采用C3D和CNN-LSTM的方法提取图像序列的时空特征;最后,分别研究了特征融合和结果融合两种不同的融合策略。实验表明,模态融合的结果比单模态的识别率高,三模态融合比二模态融合的识别率高,特征融合比结果融合的识别率高。
其他文献
主要介绍铋化合物催化剂、含能非铅催化剂、碳纤维催化剂和氟化锂催化剂在固体推进剂中应用的研究进展.
针对2007年夏季淮河流域致洪暴雨,笔者采用美国NCEP/NCAR全球日平均分析场资料,对此次过程进行了详细地分析。Morlet小波分析结果表明:降水存在准35天、准18天和准8天周期变化
《中国古今地名大词典》是建国后编纂的规模最大、内容最全、最具权威的古今地名工具书,但该典涉及邯郸地名的词条有4则不正确之处:(1)第1405页“1986年武安市划归邯郸市”中的“
社会上对大学生责任的研究多偏重与家庭、学校、社会环境的教育感化为主,要明确责任情商,培养理性规则意识,学生才会有责任的自觉化;并提出高校要在责任管理导向前提下,使责