基于深度学习的语音情感识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:luo6411465
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类历史的逐步发展,以科技为代表的第一生产力不断革新,人类已经迈入了信息化发展的新阶段。在这个时期中计算机正在逐步取替人类,完成一些非常具有挑战性的工作。创新型的人机交互领域正在逐步成为研究热门,目的是为了让计算机更加智能,表达更加自然。情感分析技术正是人机交互技术的一个非常重要的组成部分,而语音作为人类表达情感极其关键的通道,语音中包含了很多关键的情感信息。语音情感分析的最终目的就是让机器能够通过语音来识别人类的情感,从而做出更加合理的决策,这项研究在未来有着极其广泛的应用场景。近年来,随着深度学习技术的不断发展,其应用场景越来越广泛,并且在诸如计算机视觉、自然语言处理以及游戏等领域都取得了非常不错的成绩。因此,深度学习技术正在逐步成为一个研究热点,目前已经有不少语音情感领域的专家在他们的相关研究中应用到了深度学习技术,并且取得了不错的成绩。但依然存在很多困难,例如缺少大规模的语音情感数据库,以及情感识别准确率不高、情感与文化的强关联性、不同人有不同的讲话习惯等等。为了解决这些问题和困难,通过大量实践,本文提出了相应的改进方法,并取得了不错的处理结果。本文的主要创新点有两点,总结如下:1、提出了一种适用于语音情感识别的卷积神经网络模型EMNet。本文根据语谱图的特点,改良了CNN网络结构。与经典的AlexNet对比,EMNet的语音情感识别性能提升了9.37%,并且需要训练的参数量只是AlexNet的5.2%,从而使得EMNet训练时间更短,消耗的内存更少。2、提出了基于视网膜成像原理的数据处理算法DPARIP。通过应用该算法对数据进行处理,从而可以获得更多的训练数据,有效缓解了训练数据量少的问题。随后将DPARIP分别与AlexNet和EMNet相结合,并在IEMOCAP数据库进行实验,分类性能与该领域的最新成果相比,分别提升了22.06%和23.66%。综上,通过实验结果分析,证明了本文所提出的卷积神经网络模型EMNet和基于视网膜成像原理的数据处理算法DPARIP的有效性。
其他文献
采用HPLC法测定商洛六区县黄芩中黄芩苷含量,采用理化分析法测定六区县黄芩样方的土壤养分,探讨黄芩苷含量与土壤养分之间的相关性。结果显示,碱解氮、速效钾、有机质均有利
目的:探讨对颅内动脉瘤患者分别实施开颅夹闭术和血管内栓塞术治疗的临床疗效。方法:选择92例颅内动脉瘤患者作为研究对象,用抽签法将92例患者分为对照组46例(采用开颅夹闭术
由于水工建筑物溢洪道要承受高速和大流量的水冲刷,其对混凝土施工质量要求严格,防止裂缝的产生是工程建设者面临的一大难题.本文从溢洪道混凝土的材料特性和结构特点阐述了
锦凌水库在右岸基坑搭设暖棚,建设临时拌和站,外购砂石骨料拌制三级配混凝土覆盖基岩,然后进行固结灌浆的方案,同时在冬季完成门塔机安装等工作。文章对冬季混凝土施工的施工
结合北京铁路局北京工电大修段物资管理工作现状,阐述了降低工程成本必须重点做好的4个方面工作。
口蹄疫是现代化养猪过程中发病率较高且危害极大的传染类疾病之一,对人亦会造成传播伤害,需要引起足够的重视。基于此,对猪场口蹄疫的发病原因、临床诊断等进行总结,并提出几