论文部分内容阅读
随着人类历史的逐步发展,以科技为代表的第一生产力不断革新,人类已经迈入了信息化发展的新阶段。在这个时期中计算机正在逐步取替人类,完成一些非常具有挑战性的工作。创新型的人机交互领域正在逐步成为研究热门,目的是为了让计算机更加智能,表达更加自然。情感分析技术正是人机交互技术的一个非常重要的组成部分,而语音作为人类表达情感极其关键的通道,语音中包含了很多关键的情感信息。语音情感分析的最终目的就是让机器能够通过语音来识别人类的情感,从而做出更加合理的决策,这项研究在未来有着极其广泛的应用场景。近年来,随着深度学习技术的不断发展,其应用场景越来越广泛,并且在诸如计算机视觉、自然语言处理以及游戏等领域都取得了非常不错的成绩。因此,深度学习技术正在逐步成为一个研究热点,目前已经有不少语音情感领域的专家在他们的相关研究中应用到了深度学习技术,并且取得了不错的成绩。但依然存在很多困难,例如缺少大规模的语音情感数据库,以及情感识别准确率不高、情感与文化的强关联性、不同人有不同的讲话习惯等等。为了解决这些问题和困难,通过大量实践,本文提出了相应的改进方法,并取得了不错的处理结果。本文的主要创新点有两点,总结如下:1、提出了一种适用于语音情感识别的卷积神经网络模型EMNet。本文根据语谱图的特点,改良了CNN网络结构。与经典的AlexNet对比,EMNet的语音情感识别性能提升了9.37%,并且需要训练的参数量只是AlexNet的5.2%,从而使得EMNet训练时间更短,消耗的内存更少。2、提出了基于视网膜成像原理的数据处理算法DPARIP。通过应用该算法对数据进行处理,从而可以获得更多的训练数据,有效缓解了训练数据量少的问题。随后将DPARIP分别与AlexNet和EMNet相结合,并在IEMOCAP数据库进行实验,分类性能与该领域的最新成果相比,分别提升了22.06%和23.66%。综上,通过实验结果分析,证明了本文所提出的卷积神经网络模型EMNet和基于视网膜成像原理的数据处理算法DPARIP的有效性。