论文部分内容阅读
情感计算是为了赋予计算机识别、理解、表达和适应人类情感的能力,以此实现高效、亲切的人机交互。人类情感有着表情、语音、生理信号等多种载体,进行多种模态的情感识别研究可以促进情感计算的发展。本文从老年人的多模态情感库的建立、语音情感特征提取方法、人脸表情特征提取方法以及情感识别结果等方面展开研究。其主要研究工作及成果总结如下:1.针对目前老年人情感领域研究的缺乏以及情感数据库模态单一的现状,本文在名为《空巢姥爷》的电视连续剧上构建了视频情感数据库、语音情感语料库和人脸表情图像库,并阐述了三种情感库的构建方法和过程。实验结果表明,多模态情感数据库的构建是合理的和有效的。2.针对常用的语音特征的情感识别率不高的问题,本文提出了六层小波包系数模型的老年人的语音特征提取及情感识别方法。分别提取6层小波包系数特征(Wavelet Packet Coefficients,WPC)、动态特征(一阶差分和二阶差分)以及全局特征(最大值、最小值、平均值、中值和方差)共计5760个特征参数。采用主成分分析方法进行特征降维,并选择支持向量机作为分类器。通过与梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和傅里叶系数(Fourier parameter,FP)比较。实验结果表明,WPC特征模型的语音情感识别率相对于MFCC和FP是更高的,WPC+MFCC特征集也是融合后的特征集里识别率最高的。说明本文提出的方法是有效的。3.针对老年人的人脸表情识别研究不多的情况,本文提出了二维Gabor滤波器模型的老年人的人脸表情特征提取及情感识别方法。本文在空巢姥爷人脸图像库的基础上,使用二维Gabor滤波器精确地提取人脸图像的局部特征。本文使用了具有5个不同尺度和8个不同方向的40个滤波器与图像进行卷积运算,得到图像在不同位置、尺度和方向上的特征。由于提取的图像特征维度较高,需要进行特征降维,本文提出的降维方法是:在滤波之前,先缩减图像尺寸和减少像素个数。然后在滤波过程中,强制抽取部分特征。此方法大大降低了特征维度,而且通过后期实验证明,并没有丢失关键的表情信息,表情依然可以得到较好的分类。最后,本文采用的分类器是多决策神经网络的方法,类似于Adaboost分类的多专家决策思想,并试图让分类器输出多个决策。实验结果表明,本文的方法对于老年人的面部表情识别是有效的,拥有一定的研究价值。