论文部分内容阅读
人脸表情识别一直以来都是计算机视觉和机器学习领域的研究热点。因为人类脸部的不同表情的差异非常细微,因此,让计算机准确的识别人脸面部表情是一项极具挑战性的任务。此外,许多公开的人脸面部表情识别算法对在非限制条件下采集到的人脸图像识别效果不佳,其表情识别算法距离实际应用仍有较大的差距。传统的表情识别算法通常只是用到图像的空间结构信息,但是表情的变化是一个动态的过程,它在变化的过程中具有非常明显的动作变化特征,也就是时序的信息,该信息一般使用多帧图像,利用光流算法来进行获取,但是这种方法所需要的计算资源过大,算法较为复杂。针对上述问题,本文采用基于深度时空信息融合的方法来提高人脸表情识别的正确率和鲁棒性。本文的研究内容如下:(1)调研了常用的人脸表情特征提取算法和人脸表情分类方法,并对经典的人脸表情识别系统进行了重现,对比了各个识别系统的识别正确率,并分析了这些识别系统的优劣;(2)提出了针对人脸表情识别的特征提取方法,由于近年来,卷积神经网络在图像识别领域取得了巨大的成功,本文将其引入到表情识别领域并取得了不错的效果;为了进一步提高表情识别的正确率,本文在利用表情图像的空间特征之外,又介绍并引入了表情相对变化的时序信息特征进行识别,不仅提取了静态表情图像中各个像素之间的空间拓扑信息,并且加入了能够反映时序变化的信息特征,从而使系统能够同时融合空间和时序上的信息,提高了整个系统的识别正确率;(3)提出了利用平均脸代替中性脸来提取时序信息的方法,以上的算法都是针对限制环境下的可得到特征人脸的中性表情图像提出的,自然场景下的人脸图像存在许多极端的条件变化—光照变化,无对应的中性表情图像等等,为了拓展本文算法的使用范围,当出现缺乏中性表情的情况时,本文引入了使用大量人脸的平均脸脸来代替特定个体的中性表情图像,在识别阶段,本文端到端的方式进行人脸表情识别,相对于先提取特征再进行融合的方法,端到端的方式可以使系统整体复杂度下降的同时,能够提升系统整体的准确率。最后本文将提出的MDSTFN算法与现有的人脸表情识别算法在几个知名的人脸表情数据集上进行了对比实验,本文提出的方法的准确率明显优于其它方法,也印证了本文算法的有效性。