基于深度学习的语音情感识别算法研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:baihe143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别(Speech Emotion Recognition,SER)是近年来人工智能领域的研究热点,在情感机器人、在线教育、客服中心、辅助驾驶、刑事侦查等方面具有广阔的应用前景。目前,语音情感识别的研究已取得诸多进展,但建立合理高效的语音情感识别网络模型仍是目前所面临的主要问题之一。因此,本文在分析目前主流的卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)识别模型的基础上,从不等长样本、类别不平衡样本以及情感信息帧间不平衡样本的处理三方面进行研究改进以提高模型的识别性能。主要研究工作如下:(1)对于不等长样本,采用一种变长输入策略,解决了定长输入模型中长时样本分割造成的情感类型混淆、时序信息不连续的问题,有效提高了模型的识别性能。在IEMOCAP语料库的(中性、高兴、悲伤、生气)四类情感识别实验上,取得了66.59%UAR(Unweighted Average Recall)和69.33%WAR(Weighted Average Recall)的识别性能,与定长输入模型相比,分别提升了8.61%和5.86%。(2)对于类别不平衡样本,采用焦点损失函数代替交叉熵反比权重法进行模型训练,提高了模型对于困难样本的挖掘能力,有效增强了模型对类别不平衡样本的学习能力。实验取得了68.66%UAR和69.67%WAR的识别性能,与“baseline”模型相比,分别提升了2.06%和0.34%。(3)对于情感信息帧间分布不平衡样本,在“baseline”模型中引入联结主义时间分类(Connectionist Temporal Classification,CTC)方法,利用CTC方法将情感标签对齐到情感帧,使模型仅关注学习情感帧,有效提高了模型识别性能。实验取得了69.75%UAR和70.42%WAR的识别性能,与“baseline”模型相比,分别提升了1.09%和0.75%。考虑到CTC方法对情感帧进行同等程度学习的局限性,在“baseline”模型中引入注意力机制(Attention Mechanism,AM),依据情感信息含量的不同给语音帧分配不同的注意力权重,对语音帧进行不同程度的学习。实验取得了71.77%的UAR和71.60%的WAR的识别性能,优于上述CTC模型。
其他文献
目的初步探索多巴胺(DA)递质释放与海洛因成瘾和神经毒性的相关性。方法建立海洛因成瘾大鼠模型,应用高效液相色谱层析技术检测前额叶皮质、海马、伏隔核和纹状体的DA及其代谢产
为克服现有黄土基底排土场稳定性计算方法的局限性及控制技术针对性不强或量化困难的问题,通过基底黄土孔隙水压力消散试验,得到了孔隙水压力及消散度与消散时间之间影响规律
风幕式喷杆喷雾作为一种先进、高效的施药技术,能有效地提高雾滴在作物冠层的沉积分布均匀度,增大雾滴穿透各冠层的能力,胁迫雾滴向作物冠层沉积,减少雾滴的飘失。目前,国内
内质网应激(endoplasmic reticulum stress,ERS)是一种重要的信号反应通路系统,属于细胞自我保护机制,但应激反应过强或应激反应时间过长,都会导致组织损伤。缺血再灌注损伤时,
在房屋建筑工程项目施工的过程中,要贯彻执行建设工程质量法规和强制性规范,充分认识到质量的重要性,以预防为主,严格按目标计划和规范执行,严格按操作规程、规范管理,实行奖
精妙的课堂教学导入,是课堂有效的基础。然而,有些课堂教学导入的设计远离教学内容,为导入而导入,尽管热闹非凡、笑声不断,但其实效性还需我们冷静的思考。笔者在教学实践中,
二十多年来,江西编写并出版的本省人文历史的书刊不少。但这些著作或资料汇编,因编撰者的目的不同,发行对象和渠道不同,甚至研究的学科方向不同,其着力点也往往不一样。大体来说,是
报纸
迪卡侬作为欧洲第一、世界大二的体育品销售商,近年在中国的发展令人惊奇,对中国的体育品销售市场带来的不小的影响。通过总结迪卡侬运动超市在中国成功扩张的经验,并根据我
本文运用定量分析法,以中国(CNKI)学术文献总库为数据源基础,对中国大陆村上春树文学研究现状,从时间分布、著者分布、关键词分布、硕博学位论文研究情况等角度进行梳理分析,
中国目前是世界上最大的玩具生产国和出口国,玩具产量占到全球总产量的70%以上,其中85%是对外出口,我国已成为世界玩具制造中心,玩具出口也是我国玩具业的主要贸易形势。然而