汉语语音基于包络频谱调制模式的连续情绪计算

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:bencui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在智能人-机交互系统中,语音连续情绪计算是目前流行的研究领域,并且得到了广泛的应用。虽然许多科研人员已经提出了解决语音离散情绪识别的可能性,并取得了一些成果,但至今在语音连续情绪上仍没有满意的结论。本文的主要研究内容是汉语语音连续情绪计算,即从语音信号中识别说话人当时所处的连续情绪状态。文章描述了一个基于听觉心理学的连续情绪计算模型-包络频谱调制模式(envelope spectral modulation patterns, ESMP)与情绪心理学维数(效价维、激励维、支配维和能量维)之间的分布关系,用于人类语音连续情绪的自动识别。ESMP是从听觉感应长期临界频谱表示中提取的,包含了频谱和临界调制频率成分,从而通过人类语音知觉频谱特征而不是传统的韵律特征来传递情绪信息。本文以汉语语音连续情绪计算为重点,主要研究内容包括:①模糊连续情绪语料数据库的建立;②人主观辨听实验:语音情绪维数分析;③机器实验:包络频谱特征提取、频谱计算和情绪分类。汉语普通话模糊连续情绪语音采集:在分析当前国际上一些情绪语料数据库的基础上,独立设计文本,确定录音人数、语音种类(自然、模仿、诱出)、模糊情绪种类和语料数目。所研究的情绪为5种模糊基本情绪状态:(稍微、比较和非常)喜、怒、惊、悲和惧,1种模糊二次派生情绪(稍微、比较和非常)惊喜,另取参考语音信号表征没有情绪时的状态。通过对采集的模糊情绪语音数据进行第一次主观听辨实验,最后建立汉语模糊情绪语音数据库第二次、三次主观辨听实验:实验研究了上述情绪在V-A-D上的分布情况。每一维可划分7个水平,然后请正常听力的人对第一次主观辨听实验选出的情绪语料进行再次辨听,并且鉴定每个情绪语料的7个水平在V-A-D三维空间的分布。从而得到每种情绪在V-A-D三维空间的分布结果。计算机实验:首先,分析了情绪语音相对于参考(无情绪)语音的包络特征(上下包络线、包络谱和包络特征向量)。然后,使用全相经验模态分解(ensemble empirical mode decomposition, EEMD)分段幂函数插值(PPF)算法提取这些特征,通过对情绪语音信号进行EEMD得到一系列情绪本征模态函数(emotional intrinsic mode functions, IMFe),提取每一级IMF。的频率倒谱系数作为表征说话人情绪的特征参数,对得到的情绪特征参数用矢量量化进行识别。根据IMF。频谱变换获得包络线和包络谱,同时通过快速傅立叶变换(FFT)也得到了包络特征向量。在提取包络特征的基础上,文章进一步研究了汉语情绪语音的功率频谱密度和能量频谱,进而得到了ESMP。利用Matlab软件仿真了模糊情绪的EEMD和包络频谱特性,得到模糊情绪的ESMP。(?)同时,根据ESMP的峰值(PV)、峰值瞬时(IP)、形心(C)、等距宽度(EW)和横坐标均方(MSA),进一步在V-A-D-P四维空间中分析了维数水平和ESMP之间的关系。在汉语语音模糊情绪分类上,文章提出一种新颖的、基于ESMP提取和模糊支持向量回归(FSVR)分类器(classifier)的互相关性算法。该算法应用于汉语语音模糊情绪((稍微、比较和非常)喜、惊和惊喜)的分类上。同时,FSVR分类器使用了模糊连续二分(FCB)过程,并且适用于情绪语音互相关的包络频谱特征。这种借助FSVR分类器的包络频谱互相关性算法,可以大幅提高汉语语音模糊情绪识别率,并且在识别非常喜情绪时准确率甚至可以达到92.58%。综上所述,在进行了主观辨听实验和机器实验后,文章确切的得出了结论:人辨听实验与机器实验的结果基本一致,而且使用ESMP可以大大提高汉语语音模糊情绪的识别率。作为一种新的尝试,文章提出的一个新颖特征(ESMP)和两个新算法(EEMD和FSVR)都具有一定的理论依据和较好的实用效果,为今后的语音连续情绪计算和人-机语音情绪交互研究奠定了良好的基础。
其他文献
随着地理信息科学和系统的发展,GIS数据的时空分辨率和数据量呈现爆炸式的增长趋势。传统的基于个人计算机的景观指数计算软件难以有效快速地完成海量数据的空间分析。针对该
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
通过对单片机教学的总结,针对学生缺乏动手能力的问题,探讨在单片机教学中培养创新实践能力的重要性。从教学案例、任务驱动练习、综合设计、课外兴趣科技活动和组织竞赛等提
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在全尺寸热释放速率实验台的基础上,搭建有风条件池火实验平台,开展了不同风速条件下的航空煤油池火燃烧实验,实验所用正方形油盘的边长分别为0.2m、0.3m和0.4m,风速范围为0
文章从高校课程案例视角出发,探讨数字科技教育在艺术中的"情感传达"等相关问题,如数字科技在艺术前景中对"人"元素的僭越、"人"与"数字科技"在作品中的情感关系、智能实现"
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
拥有"中国丹霞第一奇峰"之美誉的江郎山,位于浙江省衢州市江山市江郎乡境内,是国家级重点风景名胜区和国家级AAAA级景区,面积11.86平方公里。2010年8月作为"中国丹霞"的系列提名
无线传感器网络能够实时地感知、收集、处理部署区域内监控对象的各种信息,利用无线通信将其返回至基站供用户查询和分析。它具有覆盖区域广、监测精度高等优点,在战场监测、医