论文部分内容阅读
情感在人类的感知、决策等过程中具有重要作用,人类情感主要通过语言、面部表情、体态等方式表达出来。语言是人类交流最普遍、最有效的方式,语音是语言的声学表现形式。使得计算机在接收到语音信号后能获取人的情感信息,感知人类的真正意图,就是语音情感识别技术。同时人类的情感也通过面部表情变化,如眼睛、眉毛和嘴巴的变化表现出来。通过分析面部表情变化来识别表情分类的过程称为面部表情识别。它是通过提取人脸的表情变化特征,进行分析,按照人类通常的认识和思维方式加以归类和理解,即利用人类所具有的情感信息方面的先验知识,使计算机进行理解和判断,进而从人脸信息中去分析识别人类情感的重要方法。随着情感识别研究的不断深入,在人机交互、心理学研究等领域其理论价值和应用前景得到了广泛认可。目前,依靠语音、表情、生理信号等单一模态的情感识别方法较为普遍,并取得了一定的研究成果。但人类是通过听觉、视觉、触觉等多个通道的信息来表达情感的,单纯依靠语音或者表情等某个通道的信息来识别情感,不能融合不同性质的情感信号,达到信息上的互补,具有很大的局限性,也越来越不能满足当前的实际研究需求。因此,情感识别的研究需要沿着多模态识别的方向发展,其中双模态的情感识别研究,可以利用两通道的信息互补来提高分类器的鲁棒性和情感识别率,是目前我们进一步深入情感研究的主要途径。为了改进目前单模态的情感识别研究,本课题提出在基于语音韵律特征的情感识别研究的基础上,融入面部表情信息,来提高情感识别率。首先对情感进行分类,建立包含情感语句与面部表情的情感数据库。通过对语音信号预处理、提取韵律特征参数、选择分类器进行识别,得到单模态的语音情感识别结果。然后处理面部表情信息,经过特征提取、融合算法,实现融合语音及面部表情的双模态情感识别,输出识别结果。本课题主要包括以下几个方面的研究内容:第一,通过查阅国内外参考文献,选择平静、高兴、惊奇、悲伤和愤怒五种基本情感状态。在实验室环境下,针对特定样本语句,采集普通话语音信号及说话人的面部表情图像信息,建立情感数据库。第二,对数据库中不同情感状态的语音信号进行预处理,提取情感特征参数,选择语句发音持续时间、语速、振幅平均值、振幅变化范围、基频均值、基频范围、基频变化率、共振峰均值、共振峰范围、共振峰变化率十个韵律特征参数来分析语音情感。利用主元素分析(PCA)法进行情感识别实验。实验所得到的语音情感平均识别率达到84.4%。第三,对表情信息进行处理,通过人脸检测、定位、光线补偿、归一化、灰度化、高斯平滑等预处理以获取有效的表情图片信息。然后将处理过的表情图片提取人脸几何特征分别形成特征向量,与经过训练建立的表情模板库中的样本比较,进而判别图像所属的情感类别。第四,在单模态情感识别的基础上,研究多模态信息的融合算法,建立双模态情感识别系统。融合语音及面部表情信息,进行情感识别实验。通过对实验数据进行对比分析,结果证明,与单模态的语音情感识别相比,融合语音及面部表情后的情感识别率提高了约六个百分点。