论文部分内容阅读
语音是人类交流的重要手段,语音信号在传达语义信息的同时,还传递着情感信息,而情感在人们生活和交流中起着重要的作用。随着人机交互技术的发展,语音信号中的情感信息越来越受到研究人员的重视。作为语音信号情感信息处理的一个重要研究方向,语音情感识别是计算机理解人类情感的关键,是实现智能化人机交互的前提。本文对基于语音信号的情感特征选择与情感识别进行了研究。主要内容如下:
⑴设计提取了时长、语速、能量、基音频率、共振峰、TEO能量算子、Mel频率倒谱系数等声学参数和听觉参数,并提取了这些参数的衍生参数如均值、方差、一阶导数等。同时在这些常规特征参数基础上,提出了一些优化的特征参数,如25OHz以下的能量占全部能量的比重,ΔMFCC等。通过对这些参数的优缺点进行分析比较,选取一组情感区分力相对大的特征参数进行识别。
⑵提出了以基于最大差别离心度和最小同类离心度的差别因子作为选择特征参数的方法,为每种情感选取了最有效的识别特征参数。作为情感识别的基础,基于真实性、交互性、丰富性、连续性的原则,建立了情感语音数据库。建立的语音库采用两种数据来源,一种是选用特定实验者进行录音获得数据,另一种是通过截取特定表演艺术家在电影、电视剧中富有情感的台词得到语音数据。
⑶设计了全局特征参数和动态特征参数结合的识别系统,分别利用人工神经网络模型和隐马尔科夫模型进行识别,最后通过判别函数输出。对于全局特征参数,基于已提出的基于差别因子的特征参数选择方法,设计了一种交叉网络识别系统(CNRS),为每两种情感建立一个识别子网络进行识别,每个子网络的输入是基于该网络的两种情感选取的最优特征参数,整个交叉网络识别系统的输出通过判决器得到最后识别结果。
⑷实验结果表明,与经典的ACON,OCON和DRNN模型相比,CNRS识别率获得很大的提高。对于动态特征参数,使用连续的隐马尔科夫(CHMM)模型,对提取的听觉参数以及声学参数与听觉参数的结合建立CHMM模型进行识别,比较了不同参数的识别结果。最终的识别系统由判别函数判别输出,实验结果表明,系统的识别性能得到了提高。