论文部分内容阅读
语音是最主要的人际交流方式之一,也是最理想的人机交互方式之一。人类生活和学习中的自然语音不仅包含了基本的文字内容,而且还承载了丰富的情感信息。研究情感语音有助于进一步加深对大脑中情感概念的解析和理解,将情感的认识从感性认知上升为可计算模型。论文研究面向细微复杂情感的语音转换与识别,录制了11种情感类型的语音数据,利用三维PAD情绪模型描述了情感语音,分析了情感语音的声学特征与PAD值之间的关系,在此基础上进行了基于PAD的情感语音转换与识别。论文的主要创新点和工作如下:1.引入采用心理学标注的PAD(愉悦度、激活度、优势度)三维情绪模型来描述情感,和传统离散描述情感的方法相比,它更注重内在成分的表达,有利于计算机对情感实现量化分析。在录制的情感语音数据库基础上,定量分析了不同情感的韵律特征参数差异,以及PAD三个维度和韵律特征、频谱特征之间的相关性,研究结果对情感语音的定量研究有一定的指导意义。2.提出了一种新的基于支持向量回归算法(SVR)的情感语音转换方法,在录制的语料库基础上,基于统计学习理论模型,实现中性情感到其它情感的转换。提取了普通话11种情感语音的韵律特征,对比分析了中性语音和情感语音之间的韵律特征差异,构建情感语音转换的特征参数训练集。然后用SVR建立了基频、时长、能量、停顿等韵律特征参数的预测模型,实现了由中性语音向情感语音的转换。情感主观平均评分(EMOS)实验结果表明,利用这种方法变换出的10种情感语音,其平均EMOS得分为3. 4,能够表现出复杂的情感。3.提出了一种新的连续维度情感语音识别的方法。该方法采用Hilbert-Huang变换中的经验模态分解(EMD)算法提取情感语音特征,结合SVR实现情感语音识别的方法。即先用EMD将情感语音分解成若干个IMF(固有模态函数)分量,提取有用的IMF分量并加以分段,而后对分段后的IMF提取相应的特征,组成IMF组的特征向量,构建情感语音识别的特征参数集,最终利用SVR预测出PAD值。和短时处理技术相比,EMD自身的特点更适于情感语音信号的处理。实验表明,该方法能够有效地预测PAD值。作为一种新的尝试,本文提出的两种方法具有一定的理论依据和较好的实用效果,为今后的语音情感转换与识别研究奠定了良好的基础。