论文部分内容阅读
人脸表情识别是当前模式识别、人工智能、机器视觉领域的一个热点研究课题,在医疗、教育、交通安全、人机交互等领域有着广泛的应用,具有重要的研究价值和商业前景。但是人脸表情识别也具备一定的研究难度,原因在于人脸表情的区分界限比较模糊,往往面部某一部分的细微变化就足以改变一个表情类别,同时光照、姿态、背景、遮挡等等因素也会增加识别难度。近些年来深度卷积神经网络在大规模物体识别领域取得了巨大的成功,152层的残差网络在ImageNet数据库上取得了高达96.43%的识别率,说明深层次卷积网络在经过训练以后可以具备惊人的识别能力。随着残差学习等一系列研究方法的提出,深度卷积网络的训练也逐步成为可能。本文通过大量实验,比较了各种不同的卷积网络在人脸表情识别上的优劣性,并在网络结构上进行改进,提出了一种能够识别人脸表情序列的多层次卷积网络。本文的主要工作有:1、介绍了人脸表情识别的研究意义和应用前景,概述了人脸表情识别及卷积神经网络的国内外研究现状。详细介绍了卷积神经网络方法的算法原理和结构特点,并对深度卷积网络AlexNet、VGGNet和ResNet进行了剖析,描述了其在训练过程中所遇到的问题以及采取的解决方法。2、对浅层卷积网络、VGG网络和残差网络在结构上进行改进,使之能够适用于人脸表情识别。构造的浅层网络一共含有6层;VGG网络采用了9层、11层和16层的配置进行实验;残差网络则分别设计了20层、32层和50层残差进行对比实验。实验在Fer2013数据集上进行,该数据集含有28000多张训练图片和7000多张测试图片,为了增加训练集图片数量,在原有数据集上进行旋转、模糊等处理以生成扩展数据集。实验中使用含冲量的随机梯度下降算法对网络进行训练,在训练的过程中,训练参数的调节对识别率的提升起着至关重要的作用,本文通过大量尝试,反复地对训练参数进行微调,使得网络的学习最终可以朝着一个比较好的方向进行。本文不仅在Fer2013的测试集上进行了准确率的测试,为了验证训练好的网络在其他数据集上的有效性,还利用Jaffe人脸表情数据库进行了检验。3、本文运用一种多网络融合技术,构建出了能够识别表情序列的多层次卷积网络。首先生成同一个卷积神经网络的多个副本,使每一个副本处理一帧图片;然后将处理结果在融合层进行合并处理;最后通过Softmax层输出识别结果。实验在CK+人脸表情数据库上进行,在训练网络之前,还需要对图片进行一系列的预处理工序,包括人脸检测、尺度归一化和灰度均衡化灰。本文分别取3帧、4帧和5帧表情序列进行了对比实验,取得的最终识别率分别为92.15%、92.24%和92.88%。