论文部分内容阅读
目前,传统的语音情感特征主要有音质特征、韵律学特征和频谱特征等,都单一地集中于语音的时域或者频域,而很少考虑语音的时频相关特性,使得提取的特征不充分。语谱图能够很好地联通语音的时频两域,使得研究语音的时频相关性变成可能。基于此,本文从以下两个方面开展语谱图的纹理特征提取研究:1)针对完全局部二值模式(Complete Local Binary Pattern,CLBP)特征维度高,且在缺失中心像素点的情况下又过分依赖中心像素点的不足,构建了均匀完全局部二值符号模式(UniformCLBP_Sign,UCLBP_S)和改进幅度模式(Improved CLBP__Magnitude,ICLBP_M)。同时,针对经典决策级加权投票融合方法在分类器识别性能大体相同时无法发挥作用的缺点,提出幂指数加权融合方法。首先,将原始语音样本转化为语谱图,再使用多尺度、多方向的Log-Gabor滤波器对语谱图做处理,放大语谱图的细节信息;然后提取语谱图的UCLBP_S和ICLBP__M的分块直方图特征,之后串联两种特征作为新的融合特征ICLBP_S_M。最后,基于SVM对三种特征进行决策级幂指数加权融合完成语音情感识别。2)针对韦伯局部描述(Weber Local Descriptor,WLD)算子不能很好地表征语谱图对角线方向上梯度变化信息的缺点,构建了多方向韦伯局部描述(More Direction WLD,MD WLD)算子。同时,针对于梯度中心对称局部方向模式(Gradient Center-Symmetric Local Directional Pattern,GCS-LDP)不能表征图像梯度间边缘响应值变化的幅值信息,构建了完全梯度中心对称局部方向模式(Complete GCS-LDP,CGCS-LDP)。为了弥补单一纹理特征表征图像纹理信息的不足,在获取语谱图Log-Gabor图谱的基础上,提取语音样本ICLBP_S_M特征、MDWLD特征和CGCS-LDP融合特征,并且对这三种特征进行决策级融合,完成语音情感识别。实验结果表明本文算法能够有效地提高语音情感识别系统的性能。