论文部分内容阅读
语音情感识别(Speech Emotion Recognition,SER)是近年来人工智能领域的研究热点,在情感机器人、在线教育、客服中心、辅助驾驶、刑事侦查等方面具有广阔的应用前景。目前,语音情感识别的研究已取得诸多进展,但建立合理高效的语音情感识别网络模型仍是目前所面临的主要问题之一。因此,本文在分析目前主流的卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)识别模型的基础上,从不等长样本、类别不平衡样本以及情感信息帧间不平衡样本的处理三方面进行研究改进以提高模型的识别性能。主要研究工作如下:(1)对于不等长样本,采用一种变长输入策略,解决了定长输入模型中长时样本分割造成的情感类型混淆、时序信息不连续的问题,有效提高了模型的识别性能。在IEMOCAP语料库的(中性、高兴、悲伤、生气)四类情感识别实验上,取得了66.59%UAR(Unweighted Average Recall)和69.33%WAR(Weighted Average Recall)的识别性能,与定长输入模型相比,分别提升了8.61%和5.86%。(2)对于类别不平衡样本,采用焦点损失函数代替交叉熵反比权重法进行模型训练,提高了模型对于困难样本的挖掘能力,有效增强了模型对类别不平衡样本的学习能力。实验取得了68.66%UAR和69.67%WAR的识别性能,与“baseline”模型相比,分别提升了2.06%和0.34%。(3)对于情感信息帧间分布不平衡样本,在“baseline”模型中引入联结主义时间分类(Connectionist Temporal Classification,CTC)方法,利用CTC方法将情感标签对齐到情感帧,使模型仅关注学习情感帧,有效提高了模型识别性能。实验取得了69.75%UAR和70.42%WAR的识别性能,与“baseline”模型相比,分别提升了1.09%和0.75%。考虑到CTC方法对情感帧进行同等程度学习的局限性,在“baseline”模型中引入注意力机制(Attention Mechanism,AM),依据情感信息含量的不同给语音帧分配不同的注意力权重,对语音帧进行不同程度的学习。实验取得了71.77%的UAR和71.60%的WAR的识别性能,优于上述CTC模型。