论文部分内容阅读
人脸表情是人际交往中信息传递的重要途径,在察觉说话人情绪、领悟言语含义和捕捉情感细节上起到非常重要的作用。随着信息技术和计算机科学的快速发展,人们对机器的“智能”也提出了更高的要求,而人脸表情是机器理解人最快速有效的方式,因此自动面部表情分析技术在机器人、医疗、驾驶等领域的需求越来越广泛。如何提高人脸表情识别准确率、增强模型对各种外部干扰的鲁棒性和面对环境变化的适应性是人脸表情识别急需解决的关键问题。本文结合目前该领域的技术难点和研究热点,在深度表情特征学习领域做出了以下两方面的主要贡献:(1)提出了一种更具可分性的深度表情特征学习方法。在非实验条件下,人脸图像受复杂背景、人脸姿态、光照、遮挡、个体特征差异等的影响非常大,使得深度网络学习出来的特征不能体现类与类之间的区分性,不同类样本在特征空间存在严重混叠的现象。针对这个问题,我们在Fisher可分性判据的启发下提出了一种更具可分性的深度特征学习方法–Fisher loss。最小化该损失能够在欧式空间上最小化类内离散度的同时最大化类间距离,学习出来的特征在特征空间具有更好的可分性。我们的实验在MNIST和FER2013数据集上进行,从实验结果和可视化中我们可以发现,我们的方法对比单纯的交叉熵损失,以及Center loss和Island loss都更具优势,并且在这两个数据集上获得非常具有竞争力的结果。(2)提出局部相关注意力机制学习人脸跨区域相关性特征。在机器复杂多变的拍摄条件下,要想捕捉到人脸表情的关键信息是非常困难的。而CNN采用局部感受野的方式,要想捕获人脸不同区域间的长距离依赖关系需要堆叠更多的卷积模块,这是一种非常低效的方式。本文针对这些问题,提出了局部相关注意力机制,它能够学习到人脸不同区域的相关性信息,并对信息进行跨区域融合,能够精准定位表情的关键区域,对表情识别做出更加精确的判断。实验中我们对比了我们的模型和baseline模型之间的差异,发现局部相关注意力机制能够在FERPlus、SFEW和Affect Net三个数据集带来平均1.7%的准确率提升,对比近两年的方法,据我们所知我们在SFEW数据集做到了State-of-the-art的结果,而在FERPlus和Affect Net上的效果可以与其它方法进行媲美。并且我们采用了Grad-CAM方法进行可视化,对比基准模型,我们发现局部相关注意力机制确实在“学习跨区域相关特征”、“准确定位表情区域”和“屏蔽非表情干扰信息”三个方面具有独特的优势。