论文部分内容阅读
人机交互是人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程,是计算机智能的重要体现,同时也可以让计算机更好的为人类服务。语音情感识别对发展人机交互来说至关重要。目前,语音情感识别的研究是一门综合认知科学、生理学、心理学、语言学、计算机科学等多学科的热点研究课题,正越来越受到国内外科研机构和研究人员的重视。本文主要围绕人工神经网络和高斯混合模型展开语音情感识别的研究,在原有结构模型的基础上从算法层面入手提出改进的方法,以期提高相关模型的识别精度和识别效率,并在文章最后提出了一种高斯混合模型和神经网络混合的语音情感识别模型。本论文的主要研究内容和创新点如下:(1)阐述了语音情感识别的研究背景与意义,总结了当前国内外的研究现状,并对当前有待深入研究和亟待解决的理论和技术问题进行了说明。(2)概述了与情感相关的一些基础知识,包括情感的定义与情感的分类。设计并录制了汉语语音情感数据库,该库包含高兴、愤怒、惊讶、悲伤等四种基本情感,且全部语音样本都经过有效性检验以确保数据符合规范。完成了语音情感识别过程中需要进行的预处理工作,简述了本文所用到的情感特征参数的提取方式以及情感特征向量的归一化方法。(3)研究了基于Elman神经网络的语音情感识别,并运用万有引力搜索算法(Gravitational Search Algorithm, GSA)以Elman网络进行优化,算法的核心思想是运用万有引力定律通过位置寻优来不断更新网络的权值参数,最终实现网络的最优化。(4)介绍了高斯混合模型(GMM)的EM优化算法,并分析了传统EM算法的缺点。由此本文研究了一种基于改进的GMM算法的语音情感识别方法,该算法通过设定一个初始GMM模型,运用迭代方式不断修正M值和GMM网络的参数,直至得到最终的GMM模型。(5)研究了GMM和深度信念网络融合的语音情感识别方法。在受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)模型基础上构建深度信念网络(Deep Belief Network, DBN),最后提出了一种多维GMM输出与深度信念神经网络相融合的方法实现语音情感识别。