论文部分内容阅读
语音情感识别是情感研究领域的研究热点之一,其通过获取说话人的语音情感特征参数,进而识别说话人的情感状态。语音情感识别在测谎、心理学研究和智能人机交互等领域都有广泛的用途。目前语音情感识别的特征主要来自于伴随性副语言(即:基频、音高、音强等特征)。功能性副语言(如:笑声、哭声、叹息声等)作为人类语音情感表达的有力辅助工具,携带着说话人大量情感信息。故本课题将带有情感的功能性副语言结合传统语音情感特征进行语音情感识别,期待达到提高语音情感识别率及系统鲁棒性的目标。同时,引入稀疏表示进行小样本语音情感识别和功能性副语言检测,取得了较好的效果。主要内容如下:
(1)录制包含六种功能性副语言的语音情感数据库。鉴于目前国内外没有较为完备的功能性副语言数据库,课题组组织并录制了包含笑声、伤心的哭声、质疑声、叫喊声、害怕的哭声、叹息声的语音情感数据库。该数据库包含六种典型情感类别,分别为高兴、悲伤、惊讶、生气、害怕、厌恶。
(2)提出了基于稀疏表示的小样本语音情感识别方法。鉴于稀疏表示在信号处理上的优势,为了将其引入到小样本语音情感识别中,首先将特征进行降维,随后训练自适应过完备字典,进行稀疏变换与反变换,求取样本识别误差,将变换误差小者作为识别结果。
(3)为了尽最大可能利用功能性副语言正确的信息,避免错误信息的误导,提出了使用置信度和概率相结合的融合算法,并命名为功能性副语言辅助的非特定人语音情感识别算法。在该算法中,首先建立传统语音情感识别通道以及功能性副语言识别通道。综合考虑两通道识别结果的置信度和概率两个因素,选择两通道识别一致且概率置信度均较大者为最终识别结果。
(4)为了去除功能性副语言识别模型以及传统语音情感识别模型对训练集合含有功能性副语言比例的依赖性,以及为了进一步提高识别率,提出了基于功能性副语言自动检测的语音情感融合识别方法。该方法有三点贡献,一是提出了功能性副语言自动检测,二是将功能性副语言与传统语音进行分离,避免了两种完全不同信号之间的相互干扰。三是使用自适应权重融合算法进行决策融合,考虑到了两通道的识别差异。
(5)采用Matlab和VC++混合编程的开发模式,实现了基于功能性副语言辅助的多特征融合语音情感识别原型系统。其中语音信号的读取和处理以及情感特征的提取均采用Matlab编写代码实现,模型训练、情感识别功能用VC++编写代码实现。