论文部分内容阅读
为了使人机交互系统更加自然和智能,针对语音情感识别的研究受到越来越多学者的关注。近几十年,针对语音情感识别的研究已经取得了较大的进步,语音情感识别系统的性能得到了巨大的提升。然而,在现有的语音情感识别系统中,仍然缺乏一些能够准确识别语音情感信息的特征,因此,针对语音情感识别特征提取的研究,仍是语音情感识别领域研究的重点。语音中的情感内容与频谱能量的分布有密切的关系,部分学者将一段语音的频域系数构建成图像——谱图,并采用图像描述子从谱图中提取语音情感相关特征,取得一定的成果。由于该方向在情感识别领域刚刚兴起,仍然存在许多问题需要研究。首先、谱图中的哪些信息与语音情感类型有关?其次,如何从谱图中有效地提取这些信息?针对上述问题,本文基于语音情感信息与谱图纹理及能量分布的密切相关性,开展了基于语音谱图特征的情感识别研究,相关研究工作如下:1、基于语音情感类型与语音谱图纹理分布的密切相关性。提出了一种基于Gabor灰度图像谱局部二值模式(GGSLBP)特征提取方法。GGSLBP首先构建语谱图灰度图像;然后采用Gabor小波放大语谱图灰度图像的局部纹理信息,得到Gabor灰度图像谱;最后采用局部二值模式(LBP)提取Gabor灰度图像谱的局部纹理信息,得到GGSLBP特征。仿真实验显示:与传统的声学特征相比,GGSLBP特征具有较好的识别性能。2、针对局部二值模式(LBP)忽略了谱图中幅度信息且GGSLBP特征复杂度较高的问题,提出了一种面向语音情感识别的改进可辨别完全局部二值模式(IDisCLBP_SER)特征提取方法。首先生成语谱图灰度图像;其次采用完全局部二值模式(CLBP)计算图像的符号模式(CLBP_S)、幅度模式(CLBP_M);再次,不同于传统DisCLBP算法,IDisCLBP_SER取消了 CLBP_S、CLBP_M旋转不变映射处理,直接采用可辨别特征学习模型计算CLBP_S、CLBP_M的全局显著性模式集合;最后,采用全局显著性模式集合对CLBP_S、CBP_M特征处理,并将处理后特征级联,得到IDisCLBP_SER特征。实验表明:所提特征与现有声学特征融合后可以提升语音情感识别系统的识别性能。3、为探讨图像描述子中的旋转不变性是否适用于Mel对数能量谱图特征,提出了一种基于局部归一化中心矩谱图特征(LNCMSIF)提取方法。LNCMSIF首先采用二阶归一化中心矩描述Mel对数能量谱的局部能量分布信息,得到归一化中心矩谱;然后,采用离散余弦变换消除归一化中心矩谱系数间相关性,得到归一化中心矩谱倒谱系数;最后,将归一化中心矩谱及其倒谱系数组合在一起构成LNCMSIF特征。旋转不变性测试实验表明:旋转不变性不完全适用于Mel对数能量谱图特征。识别实验表明所提方法可以取得较好的识别结果。4、考虑到图像特征描述子的表征能力有限,不能充分地描述Mel对数能量谱中的情感信息。提出了 2种基于Gabor谱局部能量分布信息的谱图特征提取方法,分别为基于Gabor谱局部Hu不变矩谱图特征(GSLHuM)和基于Gabor谱局部归一化中心矩谱图特征(GSLNCM)。GSLHuM首先采用Gabor小波对Mel对数能量谱进行处理,得到Gabor谱;然后,采用1阶Hu不变矩描述Gabor谱局部能量分布信息;最后,采用离散余弦变换消除相关性,得到GSLHuM特征。类似的,GSLNCM特征采用归一化中心矩从Gabor谱中提取局部能量分布信息。仿真实验验证了所提的GSLHuM特征和GSLNCM特征的有效性。此外,与Mel对数能量谱图特征相比,旋转不变性对Gabor谱图特征识别性能影响较弱。