基于深度神经网络的情感语音识别研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:wangsong1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感语音识别是人机交流的重要组成部分,人的语音不仅仅包含内容信息,还包含情感信息,情感语音识别是当前人工智能的重点研究方向,人的情感识别具有非常重要的现实意义。当前,在情感语音识别研究中,存在数据库获取难,模型结构、情感语音特征标准不统一,识别算法还不够精准四个问题,本文通过研究情感语音特征提取,特征学习,特征分类算法,利用深度神经网络与多级分类算法进行了深入的情感语音识别实验,主要研究工作内容:  1.搭建了情感语音数据库,预处理然后提取了情感语音数据的特征。情感语音预处理包括端点检测,分帧,加窗,预加重。本文提取了情感语音的韵律特征,声音音质特征和频谱特征,包括能量,过零率,12阶MFCC,基频,谐波噪声比,并提取了其12个统计特征,包括最大值,均值,线性斜率等,总共提取了384维统计特征,并研究对比了不同情感特征分类能力的不同。  2.提出了基于深度神经网络的情感语音(DBN-DNN Feature,DDF)特征学习的改进算法。通过SVM证明了改进的DDF特征学习算法的有效性。对常用4种情感语音特征提取与分类算法进行了实验研究与仿真分析,包括支持向量机(SVM),人工神经网络(ANN),主成分分析(PCA),深度置信网络(DBN)。研究了DBN与PCA在特征降维上的优劣。考虑到DBN是一种无监督训练,本文通过结合DBN与softmax分类器,引入标签信息进行有监督的训练,进一步提炼出情感语音特征,实验表明,DDF在情感语音识别上有优异的性能。  3.提出了基于深度神经网络的多级分类算法。首先研究传统分类算法的不足,然后通过引入困惑度,构建多级分类器,对每一级分类器调优,得到了比传统一次分类更好的识别率。实验对比了PCA-SVM多级分类器与PCA-SVM一次分类,DDF-SVM多级分类与DDF-SVM一次分类,分类效果均得到提升,且基于DDF-SVM的多级分类算法比基于PCA-SVM的多级分类算法的识别率也有提升,证明了DDF-SVM多级分类的优异性能。  情感语音识别具有十分重要的现实意义,本文针对情感语音特征提取,特征学习,特征分类三个方向,对本文的数据库进行离散情感语音识别,对本文提出的特征学习算法,情感分类算法做出了不同的改进,并取得了良好的效果。
其他文献
空间谱估计算法是用来估计空间信号到达接收阵列来波方向(DOA)的方法,波达方向估计也是阵列信号处理领域的一个极其重要的应用。在雷达、声纳、无线通信等信号处理的过程中都
摘要:古典诗词是中国两千多年璀璨文化的积淀,具有非常丰厚的文化底蕴,它以深刻的思想内涵和高超的艺术手法熏陶世世代代的文人学士,是中国一座丰富的宝库。作为中华儿女,必须学习好语文,将民族优秀传统文化更好地继承和发扬。学生学习古典诗词是时代发展的需要,学习古诗名句除了要培养学生吸收中华民族优秀文化的能力,更要培养学生学以致用的能力,把中华民族的优秀文化发扬光大。作文作为语文教学的重要内容,是学生语文知
由于多维图像海量的数据给传输和存储带来了巨大的压力,因此,根据多维图像的数据特点研究高效的压缩编码技术对多维图像的传输与存储有着重大意义。本文首先介绍了高光谱图像
动态频率调节(DFS, Dynamic Frequency Scaling),是一种基于数字集成电路设计方法的实时频率调节系统。相比动态电压调节方法(DVS, Dynamic Voltage Scaling),它设计风险较低
本文通过对荣华二采区10
期刊
本论文基于TSMC0.13μm工艺,完成了一款应用于全数字锁相环的低相位噪声的DCO。本文首先介绍了DCO的基本原理,研究了振荡器相位噪声模型和高调谐精度DCO的设计手段,提出本文实现
图像分割是计算机视觉中的关键技术之一。基于马尔可夫随机场(Markov Random Field, MRF)模型的图像分割方法,是一种基于统计的分割方法,具有能充分利用先验知识,能形成闭合
车牌识别是现代智能交通系统的重要组成部分,有着广泛的应用价值,而车牌定位是车牌识别系统的首要环节,为精确高效地实现车牌识别奠定了重要的基础。本文针对复杂光照和几何