基于PAD三维情绪模型的情感语音转换与识别

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:lsy999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是最主要的人际交流方式之一,也是最理想的人机交互方式之一。人类生活和学习中的自然语音不仅包含了基本的文字内容,而且还承载了丰富的情感信息。研究情感语音有助于进一步加深对大脑中情感概念的解析和理解,将情感的认识从感性认知上升为可计算模型。论文研究面向细微复杂情感的语音转换与识别,录制了11种情感类型的语音数据,利用三维PAD情绪模型描述了情感语音,分析了情感语音的声学特征与PAD值之间的关系,在此基础上进行了基于PAD的情感语音转换与识别。论文的主要创新点和工作如下:1.引入采用心理学标注的PAD(愉悦度、激活度、优势度)三维情绪模型来描述情感,和传统离散描述情感的方法相比,它更注重内在成分的表达,有利于计算机对情感实现量化分析。在录制的情感语音数据库基础上,定量分析了不同情感的韵律特征参数差异,以及PAD三个维度和韵律特征、频谱特征之间的相关性,研究结果对情感语音的定量研究有一定的指导意义。2.提出了一种新的基于支持向量回归算法(SVR)的情感语音转换方法,在录制的语料库基础上,基于统计学习理论模型,实现中性情感到其它情感的转换。提取了普通话11种情感语音的韵律特征,对比分析了中性语音和情感语音之间的韵律特征差异,构建情感语音转换的特征参数训练集。然后用SVR建立了基频、时长、能量、停顿等韵律特征参数的预测模型,实现了由中性语音向情感语音的转换。情感主观平均评分(EMOS)实验结果表明,利用这种方法变换出的10种情感语音,其平均EMOS得分为3. 4,能够表现出复杂的情感。3.提出了一种新的连续维度情感语音识别的方法。该方法采用Hilbert-Huang变换中的经验模态分解(EMD)算法提取情感语音特征,结合SVR实现情感语音识别的方法。即先用EMD将情感语音分解成若干个IMF(固有模态函数)分量,提取有用的IMF分量并加以分段,而后对分段后的IMF提取相应的特征,组成IMF组的特征向量,构建情感语音识别的特征参数集,最终利用SVR预测出PAD值。和短时处理技术相比,EMD自身的特点更适于情感语音信号的处理。实验表明,该方法能够有效地预测PAD值。作为一种新的尝试,本文提出的两种方法具有一定的理论依据和较好的实用效果,为今后的语音情感转换与识别研究奠定了良好的基础。
其他文献
目的 估算北京市2018-2019流行季流感的发病率和住院率.方法 基于北京市昌平区和怀柔区的流感样病例(influenza like illness,ILI)监测、流感病原学监测、住院严重急性呼吸道
随着科学迅猛发展,人类基因组已经被逐渐破译,构成生命的图谱会呈现在人类面前,采取基因制造药物治疗更多的疾病已经不是一种向往。当代人类的计算机科学也在日新月异的变化,生物
现如今,我国已经逐渐进入信息化社会,随着移动互联网技术的快速发展,智能手机APP已经逐渐地被推广和应用到各个的领域.伴随着越来越多的APP问世,校园APP也成为不可忽视的一部