论文部分内容阅读
人脸是人类行为中一种丰富而有力的人际交流信息的来源。人脸表情含有丰富的人体行为信息,对它的研究可以进一步了解人类对应的心理状态。人脸表情也在人际交往和非言语交流中扮演着非常重要的角色。表情能够填补言语交流的不足,也可以独立传递完整的思想。计算机和机器人如果能够像人类那样具有理解和表达情感的能力,并能够自主适应环境,这将从根本上改变人与计算机之间的关系,使计算机能够更好的为人类服务。这也正是研究人脸表情识别并赋予计算机具有情感理解和情感表达课题的意义。因此,要利用人脸表情所提供的信息,研究出鲁棒、准确、快速且智能的自动化实时的人脸表情识别方法是非常重要的。
本文研究基于统计学习的实时表情识别,在理论研究和实际应用方面都取得了很好的成果。主要贡献包括:
第一,在表情识别的预处理阶段,本文创造了一种全新的特征空间:区域磁力线(AML,AreaMagneticLine)特征空间,并将其用于人脸检测方面。我们将AML与当前最流行的Haar特征空间做了对比实验。AML不但可以描述Haar特征所能描述的情况,并且更优于Haar特征的描述能力。利用AML,我们不单单只是去描述相邻区域的相互关系,还可以描述不相邻区域的相互关系,这是Haar特征无法做到的。通过实验可以看出,使用AML特征空间提升了人脸检测的性能。
第二,在人脸定位部分,我们对局部搜索策略进行了改进,提出了新颖的发散ASM方法。此方法解决了传统的ASM方法中很容易将搜索点定位到局部极小值的情况。当输入图像的质量较差而难以对齐的时候,我们将可能趋于局部极小值的点发散到该组观察点最外侧的点的位置上,然后通过判断最终得到的模型挑选出对齐正确的图像。通过发散ASM,我们可以对人脸定位的结果进行评估,进而提高整个表情识别系统的性能。
第三,提出了一种新型的基于嵌入式隐马尔可夫模型(EHMM,EmbeddedHMM)的实时表情识别系统,首次将嵌入式隐马尔可夫模型应用到表情识别中,并且取得了不错的效果。我们的算法使用观察序列窗口的二维离散余弦变换(2D-DCT)系数作为观察序列,从而减少了观察向量的个数,大大降低了训练和识别系统的复杂程度。从试验结果可以看出,该方法对于实时的面部表情识别是一种有效的方法。此外,我们还将我们的实时表情识别系统与实时的人机交互网络游戏相结合,通过摄像头采集玩家的脸部视频流,并将截获到的各帧图像送到表情识别系统中进行表情识别。游戏角色表情判别模块通过表情识别的结果更改游戏窗口中虚拟角色的表情,并保持与现实中玩家的表情同步变化,从而大大提高了用户与计算机之间的互动,增加了在网络游戏环境下人与人之间的交互性。
第四,在第三章工作的基础上,将具有自学习能力的统计学习方法Boosting引入到基于EHMM的实时表情识别系统中,并创造了全新的自适应嵌入式隐马尔可夫分类器:AdaEHMM分类器。利用AdaEHMM,我们使嵌入式隐马尔可夫模型的参数训练和结构选取具备了自学习的能力。通过调整样本的权重,将分类错误的样本权重提高,并将分类正确的样本权重降低,从而加强分类器的分类能力,最终得到具有强分类能力的AdaEHMM分类器组合,不仅可以根据样本的训练得到优化的EHMM结构和参数,还提高了系统的灵活性和表情识别的识别率。