多特征结合的语音情感识别方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:liongliong422
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是现实中人与人之间交流的主要手段,而语音是传递语言的最基本、最直接的途径。在语音信号中包含说话人要表达的语义信息以及说话人的情感信息,其中,情感信息在人们的交流中具有重要作用。因此,随着人机交互技术的快速发展,语音信号中个情感信息越来越受到研究人员的重视。作为语音信号情感信息处理的一个重要研究方向,语音情感识别是计算机理解人类情感的关键,是实现智能化人机交互的前提。但是,目前对情感识别的研究还不够深入,在情感语音数据库的建立、情感特征参数的提取、情感识别方法等诸多方面的研究还没有形成系统的理论。因此,可以说语音情感识别尚处于初步阶段,还有许多工作要深入下去。本文首先概述了语音信号情感识别涉及的研究领域及应用,并简单介绍了近几年国内外语音情感识别的最新研究动态。在此基础上,针对传统的情感特征提取大部分只是提取反映唤醒度的韵律特征,而没有或很少关注反映愉悦度的音质特征以及反映听觉特性的Mel频率倒谱系数(Mel-frequency Cepstral Coeffients, MFCC)的问题,提出了结合韵律特征、音质特征和MFCC特征的参数情感特征提取,并用主成分分析法对提取出的原始特征进行降维和去冗余处理,最后用支持向量机进行语音情感识别实验,并进行了分析。论文的主要研究内容和工作包括以下几个方面:(1)构建情感语音数据库。本文选取本身不带有情感信息的12句文本,由10名在校学生分别用不同情感去朗读,录制了带有高兴、愤怒、惊奇和悲伤4种不同的情感的语音数据库,为了进一步增强语音库的情感真实性,又搜集了电影的、电视里的四种情感语句,最终形成了2440句情感语音作为实验数据。(2)情感特征参数的分析与提取。情感的变化通过情感特征参数的差异而体现。本文分别从韵律特征、音质特征和MFCC中提取特征参数,韵律特征在声学上通常由基音、振幅和语速等表示。在声学上,音质特征用共振峰体现和谐波噪声比来体现。本文从语音的语速、基音频率、振幅能量、共振峰、谐波噪声比和MFCC等几个方面提取语音情感特征参数,总共提取出韵律特征参数12个、音质特征参数16个和MFCC特征参数12个共40个的原始特征参数。(3)基于主成分分析和支持向量机的语音情感识别实验。语音情感识别属于模式识别的一种,是建立在特征参数提取的基础上。本文结合提取出的40个特征参数,经过主成分分析,使得到的新的特征向量各分量之间具有独立性,去除了特征矢量之间的冗余,同时也降低了输入的特征矢量的维数,采用支持向量机进行了情感识别,并对采用不同的特征参数的识别结果进行了比较和分析,验证了音质特征和MFCC特征的有效性。
其他文献
近年来,智能光网络的发展引入了一部分自动控制功能,实现了自动连接管理。但当突发业务引起路由发生变化时,缺少智能化监控、调节和自我适应。因此,并不能真正满足动态业务的
随着智能设备和物联网应用等的快速发展,无线网络的规模持续增大,大规模网络的性能分析因此得到大量的关注。网络规模扩大的同时,面临着两个主要的挑战。一方面,无线信道的开放性
目前MIMO技术已经成为无线通信中的研究热点。虽然MIMO技术能够使系统的性能得到提升,但是由于受到体积和成本的限制,移动终端安装多个天线非常困难,这就限制了MIMO技术的应用。
说话人识别是通过目标说话人语音中携带的说话人个性信息来识别说话人的身份,与其它生物信息识别技术比较,它具有系统设备成本低,语音采集方便等优点。说话人识别是最新科学
医学图像去噪作为图像预处理的一部分,对图像的后续处理如分割、配准、融合起着相当重要的作用。现代医学图像的去噪方法可分为空间域方法和变换域方法。其中空间域的去噪方
IPv6是后IP时代发展的趋势,势必取代IPv4作为新一代的IP通信技术,而物联网的兴起使得普通传感器节点对接入Internet提出了需求。传统的IP协议栈并不适合资源和能量受限的无线传
无线通信技术的飞速发展,让人类进入了一个全新的无线信息时代。无线自组网以其无须基础设施支持、具有自主配置和自主修复等特性,不仅在军用领域得到广泛研究,在民用领域也