论文部分内容阅读
语音情感识别是从给定语音段中自动获取情感类型的技术,随着商业和教育等领域对情感识别需求的不断增加,发展高准确率的语音情感识别系统成为了语音领域的一个热门研究方向。而基于深度学习的语音情感识别方法,特别是卷积神经网络(Convolutional Neural Network,CNN)在这一领域得到了研究者们的重视,一些初步研究取得了良好效果,表现出比较大的研究潜力。然而对于CNN语音情感识别模型仍然有几个方面需要研究和探索,首先,什么样的特征更适合于CNN语音情感识别模型。其次,如何合理地设计网络结构,使其能有效学习到情感区分性信息,最后数据不足的问题是制约语音情感识别发展的一大难题,因此如何利用更多辅助数据来提高识别准确率的方法有待于去探索。针对这这些问题,本文展开了研究和实验。为了探究特征对情感识别的影响,本文首先建立了一个端到端CNN语音情感识别系统,并且在多种特征上进行实验,发现语谱图特征对于语音情感识别有着最佳的性能。在此基础之上本文进一步对于语谱图的不同频域段进行了探索,发现低频率段对于情感识别有着重要的作用。同时本文还对不同情感类别的CNN的激活值进行了研究,以探索不同高层特征区别。这些研究有助于理解不同情感在时频区域上的分布特性。为了进一步利用CNN模型所输出的高层时频信息,产生更有效的情感区分性特征,本文使用双线性池化方法来对CNN语音情感识别模型的高层特征进行建模,它能计算情感高层特征各维度之间的相关性,产生更为丰富的情感特征表示。然而由于情感数据集规模的限制,造成双线性池化的训练较为困难,因此本文使用分解双线性池化对输出特征进行降维,明显提升了语音情感识别的准确率。基于双线性池化理论,本文又进一步提出了基于注意力机制的注意力池化语音情感识别模型,通过引入自顶向下和自底向上注意力权重图,使得各个情感类别得到更好的区分,提升了识别性能。为了利用额外信息,解决情感识别数据不足的问题,同时提高识别准确率,本文提出了利用音素信息和说话人信息的语音情感识别方法。针对音素特征,使用了具有两个分支的CNN网络来协同训练语音和音素特征。针对说话人信息,本文提出了使用残差适应模型进行说话人到情感的域适应。这一方法先通过带有说话人标签的数据集训练一个深度残差网络,再使用情感数据集训练适应模块,以此利用说话人数据集提供的辅助信息来提升情感识别性能。实验验证表明利用音素和说话人的情感识别模型均大幅超过仅利用语音特征的模型。