论文部分内容阅读
自然场景表情识别旨在让计算机自动判断自然场景中人物的面部表情,从而感知对方所处的情绪状态和内心情感。作为现今情感计算领域的热门研究课题,自然场景表情识别不仅具有重要的理论研究价值,而且在人机交互、医疗健康、教育娱乐等方面有着广阔应用前景。在现实自然场景中,光照条件、人脸姿态、物体遮挡、环境背景噪声等因素均不受人为的控制,这些复杂外部变量使得传统表情识别技术捉襟见肘,对研究人员提出了更高的挑战。近年来基于深度学习的方法在计算机视觉领域大放异彩,刷新了传统方法在各类任务上的表现,在学术界和工业界中掀起了阵阵热潮。深度学习通过构建复杂深层网络,自主学习和挖掘数据中与目标任务紧密相关的具有更强表达能力或鉴别能力的特征,大幅提升模型的性能。在自然场景表情识别任务上,运用深度学习技术,由底层像素到高层情感语义深入地学习数据中更具判别性的特征,从而达到更好的识别性能。围绕这一研究目标,本文开展了如下工作:(1)提出基于深度卷积神经网络模型迁移的表情识别。在表情识别中,直接从初始状态训练一个深度卷积神经网络需要大量带标签的数据,然而目前自然场景表情数据库中样本数量有限,使得直接训练会导致过拟合问题。本文第二章利用深度卷积神经网络模型在其它图像分类任务上训练好的参数,基于迁移学习思想,通过固定网络前端参数,微调后几层的参数,从有限的训练样本中学习自然场景数据中具有判别性的高层表情语义特征。(2)提出级联的卷积和双方向长短时记忆网络模型。自然场景下静态图像表情识别中,使用普通卷积神经网络仅能逐层学习面部纹理表观特征,忽略了与表情相关面部区域之间的空间关联信息。为了弥补这一不足,充分利用面部不同区域之间的空间关联性进一步描述人脸表情,本文第三章提出级联的卷积和双方向长短时记忆神经网络。该模型由前端卷积层学习面部各个区域的纹理特征,通过长短时记忆网络分别学习两个方向上纹理特征中蕴含的空间关联,最后将空间关联性表达和深度面部纹理特征合并在一起,对其进行分类。(3)提出带有共享注意力机制的双流卷积神经网络。为了增强双流卷积神经网络在建模面部纹理变化时习得空时特征的判别性,本文第四章在卷积输入和串联的特征映射图两处引入注意力机制,提出带有共享注意力机制的双流卷积神经网络。该模型将视频数据拆分为空间上的静态图像帧和时间上的帧间堆叠光流序列,二者采用相同的卷积网络架构学习表情的静态和动态特征,通过指数增强的卷积输入权重和软性注意力机制模块,神经网络能够以自学习的方式增大或者减小相应面部区域的注意力权值,从而专注于与表情类别相关性更大的面部区域上的特征,抑制不相关区域的干扰信息,由此得到更具判别性的空时特征以描述面部纹理动态变化。(4)提出多线索融合的自然场景情感识别方法。前面三个工作主要围绕如何更好地学习面部纹理特征以提升表情识别性能,在复杂自然场景中,还有更多与情感相关的线索值得探究,基于此本文第五章提出多线索融合的情感识别方法。该方法除了研究视频中面部纹理的时序变化外,也充分考虑面部关键点的运动轨迹和音频模态。级联的卷积神经网络和双向循环神经网络用来刻画面部纹理特征的时序变化;两个独立的卷积神经网络分别用来学习关键点运动轨迹和底层声学特征中蕴含的高层情感语义特征;基于三方面线索的模型输出通过决策层融合得到最终识别结果。上述研究工作表明,结合表情在自然场景静态图像和动态视频序列上的不同特点,通过构建合适的深度神经网络模型,能够有效地从底层到高层挖掘数据中蕴含的与表情密切相关的特征表达,从而提升自然场景中表情识别的准确率和鲁棒性。