论文部分内容阅读
语音情感识别是指由计算机自动识别输入语音的情感状态,是心理学、语音学、数字信号处理、人工智能等多个学科相互渗透、交叉而产生的新兴研究领域,引起了越来越多学者的关注。该研究一方面有助于推动相关学科的发展;另一方面,随着该项技术研究的深入,在诸多领域如游戏娱乐、刑侦破案、医学领域和服务业等得到了越来越多的应用。因此,语音情感识别研究具有重要的理论意义和应用价值。目前,语音情感识别研究尽管已取得了丰富的理论和应用成果,但由于语音自身的复杂性及其相关学科发展程度的制约,该项研究依然存在许多问题亟待解决。本文以建立与文本内容无关的语音情感识别系统为目标,对情感特征提取方法和识别模型等方面进行了研究,主要工作如下:(1)提出了一种基于方差分析的语音基音周期提取方法。通过对统计学中方差分析理论的研究,给出了方差分析用于基音周期估计的原理,该方法首先将短时语音采样序列进行方差分析获得其方差分布函数,然后通过定位方差分布函数的最大值位置,实现语音基音周期检测目的。(2)提出了基于小波方差分析的鲁棒基音周期检测算法。考虑到自然环境下的语音通常带有噪声,我们在短时语音方差分析的过程中融入了小波变换方法,首先利用小波变换对语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频(基音周期的倒数)带的小波系数进行方差分析,进而预测带噪语音的基音周期。对比实验表明,该算法具有较高的检测精度和鲁棒性。(3)提出了基于自整定权值K最近邻模型的语音情感识别方法。针对传统K最近邻模型的缺陷,综合已有K最近邻模型的相关改进算法,给出了一种新的加权K最近邻模型,该模型同时考虑了测试样本与各类训练样本近邻距离的类内加权和类间加权,这两种权值根据近邻距离关系自适应获得,是一种权值自整定过程。以上述研究为基础,构建语音情感识别系统进行实验验证,提取语音信号的全局统计参数作为识别特征,并采用主成分分析方法实现特征向量的维数约简,仿真结果验证了该识别方法的有效性。(4)提出了一种基于多模型融合的语音情感识别方法。该方法首先根据不同语音模型分别提取表征语音情感的特征参数集,然后运用高斯混合模型对以上每个特征参数集分别设计单分类器,最后基于遗传算法融合多个单分类器对语音情感进行识别。实验结果表明,该方法可获得比单分类器更好的识别性能。(5)结合本文算法和已有方法,基于组件架构,设计开发了支持语音情感识别的原型系统,为将来研究和开发应用级语音情感处理软件系统提供了可行性分析依据及相应的算法基础。