论文部分内容阅读
随着计算机的普及以及计算机科学技术的迅猛发展,人类对计算机的依赖性不断增强,一场信息革命正在酝酿,新型的人机交互技术正逐渐成为研究热点。语言本身作为人类特有的功能,在人类进行思想、观点和情感交流等信息的相互传递中发挥着重要的作用,语音信号中的情感信息研究正越来越受人们的重视。情感语音识别作为情感语音信号处理研究的一个重要分支,在实现人机自然交互方面有重要的作用。本文首先介绍了情感语音识别的研究背景与研究意义、研究现状以及应用前景,接下来介绍了目前国内外对情感的分类和一些常用的识别方法。在对国内外情感语音库了解的基础上,从确定情感类别、选择录音脚本、实验环境及设备的要求等方面综合考虑,录制了包含高兴、中性、生气三种情感的情感语音库,并经过了主观辨听实验,选取了其中情感识别度较高的语句进行情感语音识别的实验。在对语音信号的情感特征进行分析之后,对本文实验所用的各种特征参数的提取方法进行了详细的介绍,提取了基音频率及其一阶、二阶导数,短时能量的一阶、二阶、三阶导数,第一共振峰及传统特征参数MFCC特征、抗噪特征参数ZCPA特征等特征参数。然后重点介绍了本文中情感语音识别模型的建模思想和建模方法。使用从左到右的有跳转的连续隐马尔可夫模型(CHMM)进行情感语音识别,从模型的初始化、参数训练和情感识别几个方面概括了研究的整个工作过程。在情感的训练识别中,分别使用了单个MFCC特征参数,单个ZCPA特征参数和九维的情感特征参数矢量在平静、有噪声情况下进行训练和识别。实验结果表明,三种情感的总体识别效果都比较理想,在各组的识别结果中相同条件下对比,三种情感中的中性的识别率更好一些。在噪声环境下,单个ZCPA特征参数和综合的情感特征参数矢量的识别效果要明显好于传统的MFCC特征参数。最后讨论了该领域存在的一些问题,本次研究中的不足和今后需要进一步研究的课题。