论文部分内容阅读
语音情感识别技术是近年来人机交互领域新兴的研究课题之一,有着广泛的应用前景,该技术主要包括情感语料库的建立、语音情感特征参数的提取及语音情感识别分类器的选择等。本文的主要工作是建立了一个汉语情感语料库,设计了一种基于短时 TEO能量的端点检测算法,采用 SVM对语音情感的 TEO-MFCC、AF-MFCC、DAF-MFCC参数进行识别和比较,同时采用增减分量法研究了MFCC、Mid-MFCC和 IMFCC各倒谱分量对语音情感识别的贡献,选取最优倒谱分量组成混合参数并将其应用于语音情感识别。 本文首先介绍了情感的分类方法,详细地阐述了特征参数的研究现状,介绍了目前应用于情感识别的常用特征降维方法,并对其进行分析比较。基于对情感语料库构建方法的描述,建立了包含悲伤、生气、中性和高兴四种情感状态的汉语情感语料库,并根据主观听辨实验结果对情感语料库进行有效性选择,最终得到480句情感语料。 其次,分析了端点检测过程对情感识别系统的重要性,设计了一种在噪声环境下基于短时TEO能量的语音信号端点检测算法,并将其与传统的双门限法和谱熵法进行不同噪声和不同信噪比的对比实验,实验结果表明,本文设计的算法用于低信噪比带噪语音时可保持较高的端点检测正确率。 最后,介绍了MFCC和ΔMFCC,并将MFCC与不同形式的TEO结合得到三种非线性特征参数——TEO-MFCC、AF-MFCC和DAF-MFCC,采用SVM分别对这五种特征参数进行语音情感识别实验。实验结果显示,除 TEO-MFCC的情感识别率为89.167%外,其余四种特征的情感识别率都达到了90%及以上。另外,介绍了两种改进MFCC的特征参数——Mid-MFCC和IMFCC,运用增减分量法计算了MFCC、Mid-MFCC和IMFCC各阶倒谱分量对语音情感识别的贡献,提取这三个特征参数贡献最高的几阶倒谱分量组成了新的特征参数。实验结果显示,由MFCC中贡献最高的12阶倒谱分量组成的特征参数可达到91.67%的情感识别率;由贡献最高的8阶MFCC倒谱分量、4阶Mid-MFCC倒谱分量和4阶IMFCC倒谱分量组成的16阶混合参数可达到92.083%的情感识别率。