论文部分内容阅读
本文主要解决的问题是在视频(图像序列)中对于面部表情的识别。相比于静态图像,视频(图像序列)中包含了除空间信息以外的时序逻辑信息,如何利用这些时序逻辑信息来进一步的提高该任务识别精度是本文立文之本。不论是经典的统计方法,还是近年来兴起的卷积神经网络,如何提取有效的时序表达仍是一个开放式问题,这也是本文重要解决的问题。本文主要从以下四个方面进行探索:1、几何显著变化的面部表情识别。几何特征与形态特征在表情识别中都发挥着重要的作用。在静态图像中根据标注点所确定的几何特征或者根据主观经验所确定的形态特征块,并不能在视频(图像序列)中取得类似的良好效果。我们根据标注点在帧间位移的显著性而筛选出来的几何特征,在较大程度上描述了面部器官在表情发生过程中的运动过程。根据这些几何特征进一步地构造关键区块并形成形态特征,则更据有针对性。在CK+数据集中验证了上述的方法并与一些经典和最新方法比较,验证了所提方法的有效性。2、PLBP-Inception-LSTM面部表情识别模型。在保证不同输入之间的依赖关系下,增加卷积神经网络输入的多样性而不改变网络的基本结构可以有效的提高模型的性能。由于卷积操作与LBP模式的计算具有很多的相似性,本文提出了类LBP模块并将其集成到Inception网络中。由于表情是由面部器官的形变所形成的,而面部器官在尺度上具有多样性,故采用多支路的Inception网络作为基础结构以解决尺度问题。另一方面,视频(表情序列)中的时序逻辑信息不能很好的被卷积神经网络所学习,在其后串联LSTM单元用于处理时序信息则进一步强化了模型的性能。在四个公开数据集上进行了试验,与一些经典和最新的方法比较,验证了所提方法的有效性。3、二值三维卷积网络的面部表情识别模型。除了采用专门处理时序逻辑信息的运算单元来处理时序信息以外,通过将二维卷积扩展为三维卷积来获取时间-空间域的信息,在处理视频(图像序列)分类问题时也能取得不错的结果。但是由于其参数多,模型大,开销高,限制了很多场景的应用。通过对网络结构的创新和变换,提出了新的局部二值三维卷积网络并通过数学证明了在一定条件下所提模型以较大概率接近标准三维卷积神经网络。在CK+数据集上进行了验证试验,实验结果支持上述数学证明。4、多模型集成的面部表情识别。多模型的集成被广泛应用于提高模型整体性能,本文亦探索了多种集成方式和组合方法,进一步提高整体性能。在Oulu、AFEW、MMI和CK+数据集上通过实验以及与一些最新方法的比较,验证了方法的有效性。