论文部分内容阅读
近年来,多模态情感识别是人机交互新兴研究领域之一。事实上,目前是海量信息和智能计算设备的时代,人(主要用户)需要更自然的与这些设备交互进行。因此,为了能流畅地应对快速进化及从新设备的改进中受益,这些机器必须具备一定的能力,更像社交能力。在这些能力中,当他们发挥社会相关作用时,情绪认知是十分重要的。多模态自动情感识别能够显著增强情感识别效果。但是,引入多特征会使学习过程更加复杂,并在实时应用问题中产生困难。实际上,特征的增加带来了多维度的问题,以及运算时间增加的问题。另外,社交相关的学习问题,特别是情感识别,由于人的个性特点而需要多种特征,因此会消耗大量的存储空间。本文重点研究视听情感识别中的特征提取和数据融合问题,旨在提升识别效果和节省存储空间。本文将解答当前与多模态信息融合相关的一些热点问题:1)人类的哪些确切线索传达了情感状态的最多信息?2)哪种方式能在多模识别过程中获得最佳表现?3)哪种方式可以降低识别复杂度?4)如何提高识别率并节省存储空间?本文主要贡献和创新点如下:(1)提出了基于特权信息学习的稀疏极限学习机(S-ELM-LUPI)方法,该方法继承了极限学习机的高速性能特点。它引入教师角色提供了更多信息以增强识别(测试)的效果,而不会使学习过程复杂化。这种机器学习方法,利用特权信息加速学习速度和稀疏的极端学习机来节省存储内存。该方法在公有可靠数据集上进行了测试,获得了较好效果。(2)提出了使用半串行融合方法的多重特征的单峰音频和面部情感识别方法,该研究分析了特征组合对增强识别的影响。本工作以S-ELM-LUPI方法为基础,实现了一种具有多种特征类型的模式学习。结果表明,当特征数量很大时,学习使用特权信息在单峰时是有效的。与使用一种类型特征的其他方法相结合(串联)组合多个特征方法相比,这种新方法在识别精度,执行减少和稳定性方面优于其他方法。(3)本文提出采用半串行融合方法,对情感识别的视听模式进行了融合,采用“使用特权学习信息”的学习方法。该方法将一种模式视为标准信息源,而另一种模式作为特权信息源得到的结果表明,该方法适用于多模态情感识别。对于数百个样本,执行时间小于百分之一秒。所提出的方法的稀疏性,获得了存储记忆经济的优势。与其他机器学习方法的相比,本文方法更加准确和稳定。最后,本文工作是基于信息融合和使用基于视听的信息的概念。研究了基于视觉的情感识别的单峰和多模态的新的半串行组合,以评估识别率的同时增强和存储记忆的减少。实验结果表明,与串联融合方法相比,本文提出的方法降低了存储内存需求,提出了一种简化的学习方法。这使得提出的方法适用于实时和现实生活中的问题。