基于语音信号的情感特征选择与情感识别研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xiaobaitu11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类交流的重要手段,语音信号在传达语义信息的同时,还传递着情感信息,而情感在人们生活和交流中起着重要的作用。随着人机交互技术的发展,语音信号中的情感信息越来越受到研究人员的重视。作为语音信号情感信息处理的一个重要研究方向,语音情感识别是计算机理解人类情感的关键,是实现智能化人机交互的前提。本文对基于语音信号的情感特征选择与情感识别进行了研究。主要内容如下: ⑴设计提取了时长、语速、能量、基音频率、共振峰、TEO能量算子、Mel频率倒谱系数等声学参数和听觉参数,并提取了这些参数的衍生参数如均值、方差、一阶导数等。同时在这些常规特征参数基础上,提出了一些优化的特征参数,如25OHz以下的能量占全部能量的比重,ΔMFCC等。通过对这些参数的优缺点进行分析比较,选取一组情感区分力相对大的特征参数进行识别。 ⑵提出了以基于最大差别离心度和最小同类离心度的差别因子作为选择特征参数的方法,为每种情感选取了最有效的识别特征参数。作为情感识别的基础,基于真实性、交互性、丰富性、连续性的原则,建立了情感语音数据库。建立的语音库采用两种数据来源,一种是选用特定实验者进行录音获得数据,另一种是通过截取特定表演艺术家在电影、电视剧中富有情感的台词得到语音数据。 ⑶设计了全局特征参数和动态特征参数结合的识别系统,分别利用人工神经网络模型和隐马尔科夫模型进行识别,最后通过判别函数输出。对于全局特征参数,基于已提出的基于差别因子的特征参数选择方法,设计了一种交叉网络识别系统(CNRS),为每两种情感建立一个识别子网络进行识别,每个子网络的输入是基于该网络的两种情感选取的最优特征参数,整个交叉网络识别系统的输出通过判决器得到最后识别结果。 ⑷实验结果表明,与经典的ACON,OCON和DRNN模型相比,CNRS识别率获得很大的提高。对于动态特征参数,使用连续的隐马尔科夫(CHMM)模型,对提取的听觉参数以及声学参数与听觉参数的结合建立CHMM模型进行识别,比较了不同参数的识别结果。最终的识别系统由判别函数判别输出,实验结果表明,系统的识别性能得到了提高。
其他文献
随着计算机技术、网络技术和微电子技术的不断发展以及嵌入式技术的进步,嵌入式系统对人类生活产生了巨大的影响。嵌入式系统与Internet网络进一步融合,于是嵌入式系统代替PC
中国是世界上最大的移动智能终端市场,拥有着数十亿带卫星定位功能的智能设备。随着卫星定位技术的快速发展,人类对移动智能终端定位精度的要求也越来越高。但是,由于移动智
本文根据Duffing混沌振子检测微弱信号的原理结合交流阻抗法检测蓄电池内阻的原理,研究了一种基于混沌理论的蓄电池内阻在线检测的方法。该方法能够减少抗干扰电路的设计,简化测量的电路,在蓄电池内阻的在线检测方面具有重要的意义。根据该方法本文设计了具体的实现电路,并通过实验分析了所测得的内阻数据及其变化趋势,证明了在检测微弱信号上混沌振子检测的抗干扰性能比传统的FFT算法具有明显的优势。最后本文运用B
随着数字媒体采集、显示以及处理技术的飞速发展,各种高质量图像及视频的新应用和服务不断出现,使得图像/视频数据呈爆炸式增长。海量的图像/视频数据给传输和存储提出了极高
CMOS数字集成电路集成度和工作频率的不断提高,导致集成电路芯片的功耗和功率密度持续增大,功耗已经成为集成电路进一步发展的最大障碍。降低电源电压是最为直接和有效的降低CM
随着电子技术和通信技术的不断发展,数字多媒体产品越来越多且已融入人们生活的方方面面。数字产品在给我们带来便利的同时,它容易被操作和篡改的特性也引起了许多安全性问题
下一代移动通信的主要目标之一是在时变,频率选择性和带宽受限的无线信道上提供高速有效的多媒体服务。结合动态资源分配的正交频分多址(OFDM,Orthogonal Frequency Division
事件检测是计算机视觉领域的重要课题,在智能监控、社交网络、人机交互等领域具有广泛应用。目前,如何利用计算机自动完成海量数据中的事件检测,对于研究人员来说仍然是一个
随着移动通信的发展,专用移动网络越来越显示出不可替代的重要性。由ETSI于2004年提出新型数字专用无线通信系统DMR(Digital Mobile Radio)系统,相对于已经成熟的TETRA与iDEN
随着计算机网络技术的发展,系统不仅受到来自外部的攻击,还有来自内部的威胁。据统计,内部威胁造成的危害远远大于外部攻击造成的危害。本文在简单介绍了内部威胁研究背景、