论文部分内容阅读
情感状态在人们日常交互中扮演着十分重要的角色,丰富的情感状态有助于个体表达自己的思想,因此,对于情感分析的研究是十分重要的。视觉和语音是人类表达情感最直接和有效的方式,也是情感计算领域中的两个重要信息模态。单一模态的情感识别在现实应用中有时会存在缺陷,因此,对于多模态情感识别的研究变得越来越重要。多模态情感识别的难点一方面在于既要保留单个模态的原始特性,还要挖掘两个模态互补的信息,最终获得有利于情感识别的多模态共享情感特征。然而,在现实生活中,模态缺失也是一个普遍存在且棘手的问题。如何利用已有的模态信息重构出缺失模态是另外一个研究难点。考虑到这两个难点,文中分别提出一种视觉语音多模态共享情感特征学习方法和一种视觉语音多模态迁移情感特征学习方法。文章的主要内容和创新点如下:(1)提出基于局部稀疏可鉴别典型相关分析的多模态共享情感特征学习方法。主要目的是学习得到既包含单模态情感信息,又体现两个模态互补特性的共享情感特征。该方法主要包括三个阶段,第一阶段是单模态高层情感特征学习,首先对语音数据进行预处理获得语谱图,并提取视频序列的关键帧,之后利用稀疏自动编码器分别提取视频帧和语音的高层情感特征。第二阶段是多模态共享情感特征学习,将提取的视觉和语音的高层情感特征利用基于局部稀疏可鉴别的典型相关分析方法En-SLDCCA进行特征融合获得多模态共享情感特征。第三阶段是SVM分类器训练,将多模态共享情感特征输入SVM分类器中进行情感识别。本文在Enterface’05的多模态情感数据库上进行实验,多模态情感识别准确率达到了80.1%。(2)提出基于视觉语音的多模态迁移情感特征学习方法。主要目的是解决多模态情感识别中的模态缺失问题。该方法主要包括四个阶段,第一阶段是单模态高层情感特征学习,首先对语音和视频进行预处理,分别获得语谱图和视频关键帧,接着利用稀疏自动编码器分别提取视觉和语音的高层情感特征。第二阶段是情感特征迁移学习,主要分两步完成,第一步是模态间迁移函数学习,利用规范化的典型相关分析方法NCCA将视觉和语音在某层提取到的特征投影到一个共享空间中,之后进行迁移函数的学习。第二步是缺失模态的情感特征重构,将已有模态作为输入利用模态特征重构方法学习得到缺失模态的重构特征。第三阶段是多模态共享情感特征学习。将原有模态的高层情感特征和缺失模态的重构特征利用En-SLDCCA方法进行特征融合,得到多模态共享情感特征。第三阶段是SVM分类器训练,将共享情感特征输入SVM分类器中进行情感识别。在Enterface’05的多模态情感数据库上的实验结果也表明缺失模态的重构特征基本还原了模态的原始特性。(3)设计并实现视觉语音多模态情感识别的原型系统。通过采用MATLAB和C++混合编程的方法实现视觉语音多模态情感识别的原型系统。其中,文中提出的基于局部稀疏可鉴别典型相关分析的多模态共享情感特征学习方法功能模块和基于视觉语音的多模态迁移情感特征学习方法模块都在该原型系统中得到实现。通过该原型系统的实现来验证本文所提方法的可用性。