论文部分内容阅读
自古以来,情感都是人类传达信息的重要方式之一,随着时代的发展以及人工智能技术的逐渐成熟,人机交互的范畴以及不仅仅局限于单纯的语音以及文本,渴望计算机理解以及表现出情感的需求日益增长,因此语音情感识别在人机交互中显得尤为重要。从本质上来说,语音情感识别实际上是一个信息处理的过程,即将语音信号中的情感信息提取出来,并加以识别,其应用的领域极为广泛,例如人机交互包括对话机器人,以及公共安全监测,客服服务态度的监测等等,语音情感识别拥有广泛的运用同时被学术界关注已久,今年来随着心理学,生理学,神经科学以及人工智能技术的日渐成熟,相比于20世纪末语音情感识别的技术以及有了长足的提升,但是由于特征等因素的制约,目前的识别效果距离实际应用还有相当大的距离。本文从特征的角度出发进行实验,主要针对语音情感识别中的一系列难题,提出了相应的解决方案,主要研究内容包括:1)基于GMM&LSTM的长短时建模研究:使用传统的短时声学频谱特征MFCC以及传统的声学模型例如GMM对语音情感进行识别,同时使用LSTM对短时特征MFCC进行长时的建模,并和传统的模型进行对比。即进行长时和短时的情感表现力的对比实验。2)提出了超韵律特征提取方法:根据之前实验的实验结果以及现象,可以发现,韵律的长时的变化中包含着大量的情感信息,据此提出了 extraction of hyper-prosodic features(EHPF)的特征提取方法,通过基频,能量等韵律学特征构建出的轮廓集对原始音频进行降采样,通过对特征轮廓集进行大量统计特征的提取,使我们的特征集合尽量包含更多的情感信息,再通过特征选择过程选出相关性较高的特征,去除冗余。本文通过在多个高性能的分类器包括SVM,gbdt,random forest,DNN等,在不同的公共数据集上进行语音情感识别实验并进行对比,验证了这一分类流程的有效性,并在多个数据集上都获得了接近甚至超越state of the art的效果。3)研究了基于Spectrgram-CNN特征提取方法,提出了基于深度学习的融合特征模型:在验证了长时特征有效性的基础上,我们重新思考了频域特征的意义,并通过频域的语谱图,使用CNN等深度学习技术,提取出了全局的频谱特征,进行实验并将结果和短时MFCC进行对比。同时引入了第四章的EHPF特征,将时域和频域特征进行融合,短时特征和长时特征进行融合,获得了超越之前所有系统的实验结果。本文的研究工作对长时特征以及短时特征进行了对比,并提出了EHPF的特征提取算法,同时验证了其有效性,最后与深度学习相结合,结合时域频域,长时短时信息并通过数据集验证了其有效性。