基于ANN和GMM融合的语音情感识别方法的研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:ggep123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机交互是人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程,是计算机智能的重要体现,同时也可以让计算机更好的为人类服务。语音情感识别对发展人机交互来说至关重要。目前,语音情感识别的研究是一门综合认知科学、生理学、心理学、语言学、计算机科学等多学科的热点研究课题,正越来越受到国内外科研机构和研究人员的重视。本文主要围绕人工神经网络和高斯混合模型展开语音情感识别的研究,在原有结构模型的基础上从算法层面入手提出改进的方法,以期提高相关模型的识别精度和识别效率,并在文章最后提出了一种高斯混合模型和神经网络混合的语音情感识别模型。本论文的主要研究内容和创新点如下:(1)阐述了语音情感识别的研究背景与意义,总结了当前国内外的研究现状,并对当前有待深入研究和亟待解决的理论和技术问题进行了说明。(2)概述了与情感相关的一些基础知识,包括情感的定义与情感的分类。设计并录制了汉语语音情感数据库,该库包含高兴、愤怒、惊讶、悲伤等四种基本情感,且全部语音样本都经过有效性检验以确保数据符合规范。完成了语音情感识别过程中需要进行的预处理工作,简述了本文所用到的情感特征参数的提取方式以及情感特征向量的归一化方法。(3)研究了基于Elman神经网络的语音情感识别,并运用万有引力搜索算法(Gravitational Search Algorithm, GSA)以Elman网络进行优化,算法的核心思想是运用万有引力定律通过位置寻优来不断更新网络的权值参数,最终实现网络的最优化。(4)介绍了高斯混合模型(GMM)的EM优化算法,并分析了传统EM算法的缺点。由此本文研究了一种基于改进的GMM算法的语音情感识别方法,该算法通过设定一个初始GMM模型,运用迭代方式不断修正M值和GMM网络的参数,直至得到最终的GMM模型。(5)研究了GMM和深度信念网络融合的语音情感识别方法。在受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)模型基础上构建深度信念网络(Deep Belief Network, DBN),最后提出了一种多维GMM输出与深度信念神经网络相融合的方法实现语音情感识别。
其他文献
随着我国空间遥感技术的快速发展,遥感数据的综合应用成为大势所趋。本文研究的多源遥感系统是针对我国分散的遥感数据的应用,它集成了数据查询、订单请求、任务规划和应用平
认知无线电技术在无线通信的发展史上具有划时代的意义。它允许认知用户利用闲置的频谱资源,提高了频谱利用率,在一定程度上解决了频谱资源愈发稀缺的困境。同时,也对智能网
由于OFDM技术能将频率选择性信道转变为并行窄带信道,使得信道均衡简单,而MIMO技术能够弥补OFDM在深衰落信道下误码率较高的缺陷,所以MIMO-OFDM的结合有望同时提高数据传输的
杂波抑制是机载雷达下视工作时的关键问题。根据机载雷达杂波的空时二维耦合特性,提出的空时二维自适应处理技术能够有效提高机载相控阵雷达地杂波的抑制能力和动目标的检测
本文主要研究浅海信道的多径结构,提取出信道的多径时延,并利用多径时延进行目标被动定位。  特定声传播条件下的声信道时延结构可通过声场建模模型计算得到,本文主要运用Port
自由空间光通信(FSO)网络是一种新兴的宽带无线网络。它以激光为载波、大气为传输介质实现大容量信息的传递。FSO网络容量大、成本低、设计简单,具有极好的保密性,故可广泛应
总数估计属于数理统计中的参数估计问题,待估计的参数是总体中个体的数目。   本文研究了用标记-重捕做为抽样方法时,异质模型,稀疏样本情况下的总数估计问题。生物统计领
学位
扩频通信具有良好的抗干扰能力和保密性,在现代通信中得到了广泛的应用。其中扩频码的特性直接影响到系统的性能,目前普遍应用的传统伪随机序列,如m序列和Gold序列都在不同程度
HINOC (High Performance Network Over Coax)协议是我国自主创新开发出的一种新型宽带接入技术,它利用有线电视同轴电缆组建高速和高质量的多业务宽带接入网。随着HINOC协议