论文部分内容阅读
心理学研究指出人的感情主要通过人的面部表情表达,因此,表情是人类情感交流的重要途径之一,表情识别研究对于实现拟人化的人机交互具有重要的理论和现实意义。目前的人脸表情识别研究主要针对人为表情,而用户在镜头前按照要求做出的表情,与用户在日常生活中所表现的自发表情的产生机理和外在表现皆不相同。自发表情研究具有明显的现实意义。
本文对自发表情数据库和自发表情识别中的若干关键问题进行了研究,具体工作如下:
(1)研究自发表情数据库中表情标签用户评估的一致性。到目前为止,对于自发表情数据库中表情标签的用户评估没有统一的标准。本文采用Kappa和Kendall和谐系数对USTC-NVIE数据库中夸张帧和序列表情标签的评估数据进行了统计分析。分析结果表明,表情序列比夸张帧包含更多有用信息,多类别的表情强度标注优于单类别标注。
(2)分析自发表情数据库的偏差。不同的数据库收集方式和标注方式不同,这些数据库可变性可能会影响数据库的泛化性能。本文提出一种利用交叉数据库验证分析自发表情数据库之间的差异。本文分别从夸张帧和序列的角度进行偏差分析。首先从自发表情库USTC-NVIE、VAM、BELFAST、SEMAINE的夸张帧中提取局部二值模式(Local Binary Patterns)、伽柏(Gabor)、特征脸(Eigenface)和Fisher脸(Fisherface)四种特征,从自发表情库UTDALLAS、USTC-NVIE、DEAP、MAHNOB的序列中提取差值Gabor和差值LBP特征,然后分别使用支持向量机(SVM: Support VectorMachine)和隐马尔可夫(HMM: Hidden Markov Model)对夸张帧和序列进行愉悦度和唤醒度分类识别。实验结果表明,不同的自发表情库之间存在着偏差,这些偏差影响算法的性能。这些差异性主要来自情绪诱发的方式,被试者的多样性、评估者的评估质量等。
(3)提出特征级融合可见和红外表情图像的自发表情识别方法。由于可见光对图像外观和纹理特征有较大影响,而红外图像对光照条件不敏感,因此融合可见和红外图像可以弥补可见图像的不足。首先,分别从可见图像和红外图像中提取纹理特征和温度统计特征;然后使用方差分析(ANOVA)方法分别从可见特征和红外特征中选择最佳的特征子集,将选择的特征子集拼接成最终的特征向量;最后,采用KNN分类器进行表情识别。在USTC-NVIE自发表情数据库上的实验结果表明融合可见图像和红外图像可以提高负类表情的识别率,并降低不同类别识别的差异,从而提高表情识别的性能。
(4)提出利用标签之间依赖关系进行多表情识别和多情绪标注方法。目前的表情识别和情绪标注都是作为单标签问题处理,而实际是表情、情绪之间存在着共生和互斥关系,首先,从样本中提取特征;其次,使用4种传统的多标签学习算法Binary Relevance(BR),Random k label sets(RAkEL),BinaryRelevance k Nearest Neighbours(BRkNN)和Multi-Label k Nearest Neighbours(MLkNN)获取表情(情绪)的measurement;然后,使用BN结构学习算法建立标签间的关系;最后,结合传统方法获取的measurement和情绪之间的依赖关系,使用BN进行多标签推理。在USTC-NVIE、JAFFE和两个视频库上实验结果表明利用简单关系的RAkEL方法的识别结果好于其它3种没有考虑关系的方法,本文所提的方法比传统多标签分类方法在大部分参数上都有显著的提高,说明了本文方法的有效性。