论文部分内容阅读
近年来,人机交互系统正逐渐走进我们的生活。语音情绪识别技术作为人机交互系统中的关键技术之一,可以准确识别情绪并帮助机器更好地了解使用者的意图,提升人机交互的质量,受到了国内外研究人员的广泛关注。随着深度学习在图像识别、语音识别等领域的成功应用,学者们开始尝试将其使用在语音情绪识别上,提出了很多基于深度学习的语音情绪识别算法。本文对这些算法进行了深入的研究,发现这些算法存在特征提取方式过于简单,对人为设计的特征利用率低、模型复杂度高,识别特定情绪准确率低等问题。针对这些问题,本文从特征提取算法和模型结构两个角度对语音情绪识别算法进行了改进,改进之后的算法不仅提高了语音情绪识别的准确率,还有效降低了情绪识别系统的复杂度。本文的主要研究内容如下:对基于深度学习的语音情绪识别算法进行研究。重点研究了基于深度神经网络的变长语音情绪识别算法,介绍了算法的模型结构和其中的关键技术。在标准语音情绪识别数据集——交互式情绪二元运动捕捉数据集(Interactive Emotional Dyadic Motion Capture,IEMOCAP)上对算法进行了性能测试。将定长语音情绪识别算法与变长语音情绪识别算法的性能进行对比分析,证明了变长语音情绪识别算法的优越性。最后分析了变长语音情绪识别算法存在的问题。针对变长语音情绪识别算法存在的对人为设计的特征利用率低、特征提取方式过于简单等问题,本文从特征提取算法和模型结构两个方面提出改进,提出基于加权特征融合算法和双向长短期记忆网络的变长语音情绪识别算法。在IEMOCAP数据集上对改进后的算法进行了性能测试,实验结果表明,改进之后的算法比原算法的准确率提升了超过5%。针对变长语音情绪识别算法模型复杂度高和识别特定情绪准确率低的问题,本文使用轻量级卷积算法和多任务学习算法进行改进,提出了基于轻量深度神经网络多任务学习的变长语音情绪识别算法。在IEMOCAP数据集上对改进后的算法进行了性能测试,实验结果表明,改进之后的算法在提升了超过8%的识别准确率的同时降低了模型70%的复杂度。