论文部分内容阅读
表情识别就是给定一些预定义表情类别的图像或视频的训练样例,去预测任意未知图像或视频的类别标签。进入21世纪后,随着人工智能技术,计算机技术及相关学科的迅猛发展,人类对人机交互的需求也日趋强烈,新型的人机交互技术研究越来越受到重视。我们不仅希望计算机或机器人能够像人类那样会说、会听、会看,还能理解和表达人类内在的情绪,实现完全无障碍的自然交流,从而让计算机或机器人更好地为人类服务。而关于情绪的表露,心理学家Mehrabian给出了一个公式:感情表露=7%的言词+38%的声音+55%的面部表情,这充分说明了面部表情在人类交流过程中的重要性。关于表情识别的研究已经引起了各个不同领域,包括计算机科学、神经学、心理学等科学家的兴趣。倘若计算机系统真的能够感知人类情绪,那么将会在非常多的领域得到广泛应用,包括安全、教育、神经学、律法以及通信技术等等。根据研究对象的不同,表情识别可分为基于静态图像和基于视频两种情况。基于静态图像的表情识别在过去几十年中得到了长足的发展,有着特征提取简单、快速、便捷等优点,在特定环境下也可取得很好的识别效果。但静态图像的特征所包含的表情信息非常有限,容易受到外界环境和个体差异性等因素的影响,而且随着计算机的快速发展,人们更多地开始关注基于视频(图像序列)的表情识别研究,由于表情的产生和消失都有过程,基于视频的表情识别更能反映一个完整表情的运动过程,包含更多的面部运动和时间信息。所以,基于视频的表情识别研究更有实际意义,也更具挑战。在本文中,我们对基于视频的表情识别展开了一系列的研究,最终目标是提高识别的准确性和及时性。对于给定某个包含某种表情的视频,我们首先提取该视频的特征描述子,然后经过降维等操作后进行识别。目前大部分的研究都是遵从这样一个流程,我们前面四章的内容也是基于这个框架。但在人机交互中,如果机器人需要读完人的整个表情,再进行判断识别,这种迟滞反应将会导致一个非常糟糕的用户体验,机器人也不能处理一些紧急情况。所以本文又对表情预检测作了相关研究,表情预检测的目标就是在一个视频中的表情开始之后,结束之前,尽早地识别判断出该表情,并随着所观看的视频帧数的增加,不断修正识别结果。这是一个较新的,也是更具挑战的研究方向。本文的贡献可总结为以下4个方面:对于包含人脸表情的图像序列,我们提出了一种三维的局部Gabor二元模式特征提取算法,由于小波变换能够将图像的灰度信息分解成不同分辨率下的边缘特征,满足我们对多尺度多分辨率下图像边缘信息的描述要求,而三维的二元模式特征算子具有旋转不变性和灰度不变性等显著的优点,我们将Gabor变换和三维二元模式算子进行特征融合,使得提出的三维局部Gabor二元模式描述子既包含了 Gabor的多尺度多方向特性,又保持了对亮点、边缘等微小特征的敏感性。动态的图像序列中包含的人脸表情信息非常丰富,而单一的某种特征所能表达的信息又很有限,而且特征维度往往会非常高,考虑到不同特征之间的互补性,我们提出了基于多视角学习的降维方法,在充分挖掘各个视角特征之间以及视角内部的互补性的基础上,最大程度地去除了冗余和噪声,同时降低特征维度。基于此,我们分别提出了基于任意稀疏结构的多视角无监督降维算法和基于任意联合稀疏结构的多视角降维算法,使得基于视频的人脸表情得到更好的表示。随着神经网络在近五年再掀热潮,我们研究了神经网络在表情识别分类中的应用。我们根据神经网络的结构分解思想,进一步优化网络结构,分别提出了基于结构分解的神经网络构造算法和神经网络剪枝算法。首先把一个6分类的表情识别网络分解成6个单输出的网络结构,然后分别对每个单输出子网分别使用构造算法和剪枝算法进行识别,由于这些子网所需完成“任务”的复杂性大大降低,因而可以得到更精简的网络结构,从而提高网络性能,最后对所有子网的输出值进行整合,得到最后的识别结果。关于表情预检测,仍鲜有研究,目前还没有一个针对表情的预检测算法。边缘最大化预检测算子(MMED)是当前在事件预检测中应用最广泛的模型,而且在表情预检测中也获得了良好的性能。但MMED对视频片段的特征提取缺乏灵活性,有效信息没有得到充分挖掘,而且算法的训练时间较长,对电脑内存的需求太高,导致其实用性较低。本文针对这些问题,提出了基于多示例学习的表情预检测算法,并将其扩展成在线学习模型,在提高了识别的正确性和及时性的基础上,大大加快了训练时间,对内存的需求也大大降低。