论文部分内容阅读
随着人工智能的飞速发展以及深度学习技术的广泛应用,越来越多的智能设备和应用程序被开发使用,人性化、智能化的人机交互成为迫切需要,人们开始对未来的人机交互充满向往。情感识别是智能人机交互的基础之一,可以帮助计算机识别人类的情感和情绪,从而更好地理解人类的需求和意图,通过语音实现情感识别是自然人机交互的重要前提。本文采用深度学习方法对语音情感识别中的识别模型、多模态情感、交互应用进行了深入研究,有效地提高了语音情感的识别率。主要研究内容如下:(1)针对卷积神经网络(Convolutional Neural Network,CNN)处理时间序列效果差的问题,提出了一种带有前后时间感知的CNN语音情感识别方法。提取语音的频域特征梅尔频率倒谱系数作为特征输入,利用1D-CNN中的扩张因果卷积设计了时间感知模块(38),并基于该模块和1D&2D-CNN设计了双向时间感知网络。其由左中右三个通道的提取特征融合而成,左边与中间通道使用到了n个时间感知模块(38),分别从正反两个时间方向去捕获藏匿在帧里的情感信息,其中不同n的值会影响到模型准确率高低;右侧通道是一个多尺度2D-CNN模型,用于识别全局特征。在EMODB、RAVDESS数据集上从准确率、精确率、召回率、F1值方面进行对比实验,并与其他研究成果相比较,所提出模型识别效果更加良好。(2)针对单模态特征识别率低问题,提出一种基于注意力机制的双模态语音情感识别方法,既MCNN-Bi LSTM-ATTENTION的语音文本模型。首先利用梅尔语谱图与文本信息的词嵌入向量作为特征输入,并采用数据增强方法来减少数据集不平衡带来的影响。音频上采用CNN作为基础框架,在此基础上增加多个维度的多尺度卷积(Multiscale Convolution,MCNN),用高效通道注意力(Efficient Channel Attention,ECA)方法来增加准确率。文本方面采用双向长短时循环神经网络(Bidirectional LSTM,Bi LSTM)模型,在其输出序列后增加自注意力机制(Self-Attention),增加重要的情感词汇的权重,以提升文本的识别准确率。在IEMOCAP、MELD数据集上从准确率、精确率、召回率、F1值方面进行对比实验,分别测试单模态识别情况,以及对各部分模块进行消融实验。结果表明与其它方法相比,MCNN-Bi LSTM-ATTENTION具有更高识别率。(3)为了验证所提方法的实用性,设计开发了一种语音情感识别终端,主控采用高性能嵌入式设备jetson Xavier NX,并提供了良好的人机界面。在Linux环境下,采用python中的Py Qt5作为GUI框架,基于提出的算法详细设计并开发了对应的界面软件,给出了相应流程图,使设计开发的终端具有录音、播放、情感识别、语音特征展示等功能。根据终端测试结果表明,其能达到理想效果。本文提出了两种新颖的语音情感识别方法,解决了现有语音情感方法存在的CNN处理时间序列效果差,单模态特征识别率低等问题;并设计开发了相应的语音情感识别终端,验证了所提方法的有效性,可广泛应用于语音情感检测、心理健康治疗、智能客服等,具有良好的理论和实际应用价值。