论文部分内容阅读
情感语音识别是人机交流的重要组成部分,人的语音不仅仅包含内容信息,还包含情感信息,情感语音识别是当前人工智能的重点研究方向,人的情感识别具有非常重要的现实意义。当前,在情感语音识别研究中,存在数据库获取难,模型结构、情感语音特征标准不统一,识别算法还不够精准四个问题,本文通过研究情感语音特征提取,特征学习,特征分类算法,利用深度神经网络与多级分类算法进行了深入的情感语音识别实验,主要研究工作内容: 1.搭建了情感语音数据库,预处理然后提取了情感语音数据的特征。情感语音预处理包括端点检测,分帧,加窗,预加重。本文提取了情感语音的韵律特征,声音音质特征和频谱特征,包括能量,过零率,12阶MFCC,基频,谐波噪声比,并提取了其12个统计特征,包括最大值,均值,线性斜率等,总共提取了384维统计特征,并研究对比了不同情感特征分类能力的不同。 2.提出了基于深度神经网络的情感语音(DBN-DNN Feature,DDF)特征学习的改进算法。通过SVM证明了改进的DDF特征学习算法的有效性。对常用4种情感语音特征提取与分类算法进行了实验研究与仿真分析,包括支持向量机(SVM),人工神经网络(ANN),主成分分析(PCA),深度置信网络(DBN)。研究了DBN与PCA在特征降维上的优劣。考虑到DBN是一种无监督训练,本文通过结合DBN与softmax分类器,引入标签信息进行有监督的训练,进一步提炼出情感语音特征,实验表明,DDF在情感语音识别上有优异的性能。 3.提出了基于深度神经网络的多级分类算法。首先研究传统分类算法的不足,然后通过引入困惑度,构建多级分类器,对每一级分类器调优,得到了比传统一次分类更好的识别率。实验对比了PCA-SVM多级分类器与PCA-SVM一次分类,DDF-SVM多级分类与DDF-SVM一次分类,分类效果均得到提升,且基于DDF-SVM的多级分类算法比基于PCA-SVM的多级分类算法的识别率也有提升,证明了DDF-SVM多级分类的优异性能。 情感语音识别具有十分重要的现实意义,本文针对情感语音特征提取,特征学习,特征分类三个方向,对本文的数据库进行离散情感语音识别,对本文提出的特征学习算法,情感分类算法做出了不同的改进,并取得了良好的效果。