论文部分内容阅读
人脸表情识别技术能够分析人的情感,了解患者的精神状态,提供用户的表情反馈,以及检测疲劳作业和驾驶等,在医疗服务、人机交互、服务及零售和安全等领域有着广阔的应用前景。尽管国内外对表情识别技术已有大量的研究,但表情类内的巨大差异对表情识别性能的影响依旧突出,尤其是不同人物之间的表情类内差异。单一特征和传统特征融合方法难以解决该问题,深度学习的发展则提供了一个更可行的研究路径。基于上述原因,本文借助人脸几何信息、小波变换和傅里叶变换构建人脸表情特征,并设计相应的神经网络和特征融合策略对构建的特征作进一步刻画及分类,探索表情识别新途径。本文的主要研究内容如下:1)提出了基于人脸关键区域特征融合的表情识别算法。该算法通过构建面部肌肉动向模型来设计并提取三个规范化且最具代表性的人脸关键区域;再设计包含三个分支的卷积神经网络结构,分别从各关键区域中提取三重不同级别的视觉特征,再将其进行融合及分类。该算法通过人脸关键区域从特征提取的源头上抑制表情类内差异,且其神经网络使得底层特征与高级语义之间的过渡更加有效可靠,具有准确性高和鲁棒性强的特点。2)研究了基于人脸几何与小波纹理特征融合的表情识别算法。该算法通过分析表情特性与人脸特征点的关系来设计具有创新性的局部细节几何特征,以减少类内差异及增大类间差异,再用轻量级神经网络对该特征作进一步刻画。此外,还从人脸关键区域中提取小波纹理特征以强化表情的轮廓及纹理信息,并设计卷积网络来对此特征进一步提炼。最后,在多种融合方式下探索这两种特征的最佳识别性能。相比前一算法,该算法有效地提升了准确性和鲁棒性,且参数量不足前者的一半。3)探索了基于人脸几何与频域特征融合的表情识别算法。该算法先分别从表情序列的初始帧和峰值帧中提取局部细节几何特征的差值和频域数据的差值。然后,利用轻量级神经网络对几何特征差值进行特征刻画,并设计新颖的基于中心卷积模式的宽度卷积网络来对频域数据差值中的高低频信息进行频域特征提取。最后再将这两种特征进行融合与分类。该算法以动态表情在不同特征空间上的差值来抑制表情类内差异,轻量且高效,其网络参数量不及85万,较上一算法减少95%。4)实现了基于人脸空域纹理与频域特征融合的表情识别算法。该算法分别利用二维离散小波变换和傅里叶变换对裁剪人脸提取纹理特征和频域数据。接着,设计具有多个输入的卷积网络,对纹理特征提取三重级别的视觉特征和对频域数据提取三重频率范围的频域特征。最后,再将视觉特征和频域特征进行融合与分类。该算法挖掘了裁剪人脸中空域与频域的互补性,解决了前三个算法严重依赖于人脸特征点且只适用于正脸的困境。实验结果表明本文研究的四个表情识别算法能有效克服表情类内差异所带来的干扰,在公开数据集上都取得了理想的实验结果,其中第二个算法取得了当前最佳的实验结果。