论文部分内容阅读
语音是人与人之间相互传递信息最简易的途径。语音信号不仅查以传达人们所要表达的语义信息,还可以同时传递出说话人的情感状态。情感信息在人们感知外界事物和做出某种决策过程中都起着非常重要的作用。因此,伴随人机交互技术的不断发展,蕴含于语音信号中的情感信息受到很多研究人员的关注。目前,情感识别作为语音情感处理的重要方面成为一个新的研究热点并已受到研究人员的重视。语音情感识别是一种典型的模式识别。本文根据语音情感识别的基本原理,主要研究了情感特征计算与识别算法,具体工作如下:(1)从语音信号时域波形的角度,介绍了情感语音信号时域分析的相关内容,如短时能量、短时过零率、短时自相关分析以及基于能量和过零率相结合的端点检测算法等,为后续情感特征计算奠定了理论基础。(2)情感特征提取:本文详细讨论了两种类型的情感特征计算,一类是以语音短时分析技术为基础的时序情感特征;另一类是全局情感特征。这两类情感特征均与情感语音的能量、基音频率、共振峰以及美尔频率倒谱系数(MFCC)相关。(3)情感识别算法:本文详细阐述了两类情感识别算法,一类是以统计情感特征为训练测试样本的“一对多”网络(ACON)、支持向量机(SVM)算法,另一类是以时序情感特征为训练测试样本的隐马尔可夫模型(HMM)算法。(4)情感识别实验:首先,根据计算出的情感特征分别训练ACON、SVM以及HMM三种子情感识别模型。其次,通过决策机制将上述子情感识别模型有机地结合在一起,构成一个混合情感识别模型。本文提出的识别模型的训练样本涵盖了全局和时序两类情感信息,从而能更全面的描述情感状态。同时,它将确定性和不确定性识别模型相结合,避免了它们各自的不足。最后,用同一个情感测试集合测试上述各种情感识别模型。仿真实验结果表明本文提出的混合情感识别模型效果较好。