普通话语音情感信息的分析与研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:HOHO333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语言信息,还包含着说话人的情感信息。语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实意义。基于包含高兴、愤怒、悲伤、害怕、惊奇和中性6种情感状态的情感语音数据库,本文主要探讨了语音信号中情感信息的处理方法,重点研究了语音情感识别的相关技术。首先对语音的情感特征参数进行提取,包括韵律特征参数和谱相关参数(MFCC系数)。为了比较情感语句相对于中性语句的韵律参数的变化特性,选择了基频轨迹、能量包络和时间构造参数的统计特征进行了对比实验,并得出了具体的数量变化和比值直方图。采用GMM模型建立了基于MFCC特征参数的语音情感识别系统。在最优参数配置下,GMM分类器的平均识别率可达到72.34%。分别研究了基于清浊音分段和基于整个情感语句的韵律特征及其在表征情感状态方面的性能,并采用KNN算法和GMM算法分别设计了基于韵律特征的语音情感分类器。实验证明,基于清浊音分段的韵律特征更能区分不同的情感状态,在GMM算法下,最高平均识别率可达到达到67.92%。针对两种分类算法,分析了各个情感的识别率、6种情感的平均识别率及系统参数对性能的影响,同时比较了分类器对不同情感状态的识别性能并指出了算法可能存在的缺陷。在此基础上,研究了连续语音识别系统的设计过程,并搭建了基于HTK的情感语音识别系统。该系统在识别说话内容的同时,也能识别出情感语句的情感状态。为了消除情感引起的语音声学特征的变异,对每个情感状态的声韵母基元进行HMM建模。对于情感语音信号,系统的音节平均识别率达到50%以上。本文在情感特征的选择和情感分类器的设计等方而进行了深入细致的研究,并总结了系统存在的不足和下一步工作的研究思路,为语音情感分类的进一步研究提供了有价值的参考。
其他文献
随着多媒体技术和现代通信技术的迅猛发展,人类已经步入追求高清晰和高保真视觉信息的新时代。由于图像所承载的信息更加直观、丰富和高效,已成为人们感知客观世界非常重要的
随着微机电系统技术,无线通信技术和计算机技术的发展,提出了无线传感器网络技术。作为未来的新兴技术之一,无线传感器网络在军事、环境监测、医疗救护、商业等领域,因而具有
随着全球经济与科技的不断发展,安防意识也因势而生,这对安防技术提出了更高的要求与挑战。当前典型的安防应用系统——视频监控系统存在一定的弊端。人工监控不但人工成本巨
近年来,人们对城市空气质量以及地球石油资源危机等问题的日趋重视。为了保护环境,节约能源,在世界范围内以蓄电池作为电力能源在交通运输、通信等部门的设备中,已得到了广泛运用。由于蓄电池的充放电是一个比较复杂的电化学过程,虽然厂商多在其使用标识上号称有10年的浮充寿命,在实际应用中,由于充电方式的简单,这些蓄电池的实际浮充寿命还不到其宣称的一半。同时,在实际应用中,这些电池往往是多个串联的。电动汽车电池
基于麦克风阵列的声源定位技术因设备智能化的发展而变得越来越重要,它用于获得声源的方向和距离信息。如何在声源定位的过程中解决自然噪声、混响、以及声源随机性等因素带
半导体激光器(Laser Diode)的应用十分广泛,在工业生产和技术方面的应用如光纤通信、激光打印机、高清晰度激光电视等;在医疗和生命科学方面的应用如激光手术治疗、激光动力
六自由度飞行模拟平台控制系统是一个由数字计算机来进行实时控制并且能提供俯仰运动、横滚运动、偏航运动、升降运动、侧向平移运动和纵向平移运动的六自由度瞬时过载仿真设
目前,动态聚类算法的研究及其应用是当今数据挖掘领域研究的一个热点。在临床医学数据分析研究领域中,利用聚类算法对医学数据进行聚类分析,不仅可以提高海量医学数据有效直
在大数据的背景下,批量处理图像和视频已经成为一种常态。所以人们对图像和视频处理算法的速度要求就更高了。块匹配算法是很多图像和视频处理应用的基础算法。然而,块匹配算
随着集成电路技术和工艺的不断发展,片上多处理器结构成为体系结构设计者提高系统性能采用的主要手段。片上多处理器结构为软件编程人员开发并行编程提供了平台,为了充分利用