论文部分内容阅读
沟通与交流是人类永恒的话题。在人类的众多沟通方式中,表情是一种信息量较大的情感传达方式,在人类沟通交流中的地位至关重要。当机器具备对表情的解读能力后,可以在医疗、看护、教育、安防等多个领域发挥辅助作用,因此也成为了计算机视觉领域的经典问题之一。根据输入信号形式的不同,现有的表情识别研究可以分为基于静态图片的方法和基于动态图片序列的方法。针对单张静态表情图像识别问题,本文提出了一种基于迁移学习的识别方法。针对传统LBP特征对码间距离描述不准确,因而不适合作为卷积神经网络输入的问题,本文将传统LBP码映射至新的三维空间内,使其更好地描述纹理变化带来的码间距离变化,并将其作为网络的一路输入。同时,由于在彩色数据集中预训练的Inception网络卷积核为三通道,而实验数据为灰度图像,本文在另一路输入的RGB通道内均嵌入原始图像的灰度值作为映射LBP方法的补充。决策层融合使两路输入发挥了较好的互补作用,在FER-2013数据集中取得了优于基准线的实验效果。针对连续表情图像识别问题,本文提出了一种基于特征点信息与双网络联合训练的方法。本文首先提出了一种从长度不定的图片序列中抽取指定长度图片帧的算法,使得被抽取出的关键帧表征了表情的典型变化模式。进一步地,本文提出了全局深度网络以及局部深度网络,以特征点信息作为输入分别进行独立训练,得到两个独立的判别模型。此外,本文设计了两个网络的融合方法以及其联合训练的损失函数,以放大不同表情的类间差异,同时约束同一表情的类内差异。实验结果表明此网络的识别率在CK+、Oulu-CASIA、MMI三个数据集中领先于绝大部分已知方法,仅在MMI数据集中小幅落后于最优模型。但相比之下,此网络的计算复杂度大大减小,在识别效果与计算复杂度之间取得了较好的平衡。针对连续表情图像识别问题,本文进一步提出了一种基于可变长三维卷积神经网络与孪生注意力机制的识别方法。现有的研究主要集中在单个数据集内受试者无关的实验,而跨数据集的实验十分少见,并且缺乏可比的实验基准。在这两类实验中,最为关键的任务都是提取出能够表征人脸表情变化模式的高效率特征。在本文的可变长三维卷积神经网络中,卷积核的深度小于输入通道数,从而使时域中具备了与空域类似的局部感受野,并产生了维度随输入通道数量变化的高层特征表示。孪生网络则利用另一个具备同样表情标签样本的“中性”、“渐进”、“峰值”帧作为输入,通过比较可变长维卷积网络与孪生网络的高层特征相似度,注意力加权模块将使得网络更加聚焦于个体无关的表情特征,增强特征学习的有效性。实验结果表明,此网络成功地聚焦于图片序列中关键的变化帧,在单个数据集内受试者无关的实验与跨数据集的实验中均取得了优秀的性能。最后,本文推荐了一种可作为比较基准的跨数据集实验方案,以便于后续比较研究的展开。