基于稀疏表示与功能性副语言辅助的语音情感识别方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:yjq888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别是情感研究领域的研究热点之一,其通过获取说话人的语音情感特征参数,进而识别说话人的情感状态。语音情感识别在测谎、心理学研究和智能人机交互等领域都有广泛的用途。目前语音情感识别的特征主要来自于伴随性副语言(即:基频、音高、音强等特征)。功能性副语言(如:笑声、哭声、叹息声等)作为人类语音情感表达的有力辅助工具,携带着说话人大量情感信息。故本课题将带有情感的功能性副语言结合传统语音情感特征进行语音情感识别,期待达到提高语音情感识别率及系统鲁棒性的目标。同时,引入稀疏表示进行小样本语音情感识别和功能性副语言检测,取得了较好的效果。主要内容如下:   (1)录制包含六种功能性副语言的语音情感数据库。鉴于目前国内外没有较为完备的功能性副语言数据库,课题组组织并录制了包含笑声、伤心的哭声、质疑声、叫喊声、害怕的哭声、叹息声的语音情感数据库。该数据库包含六种典型情感类别,分别为高兴、悲伤、惊讶、生气、害怕、厌恶。   (2)提出了基于稀疏表示的小样本语音情感识别方法。鉴于稀疏表示在信号处理上的优势,为了将其引入到小样本语音情感识别中,首先将特征进行降维,随后训练自适应过完备字典,进行稀疏变换与反变换,求取样本识别误差,将变换误差小者作为识别结果。   (3)为了尽最大可能利用功能性副语言正确的信息,避免错误信息的误导,提出了使用置信度和概率相结合的融合算法,并命名为功能性副语言辅助的非特定人语音情感识别算法。在该算法中,首先建立传统语音情感识别通道以及功能性副语言识别通道。综合考虑两通道识别结果的置信度和概率两个因素,选择两通道识别一致且概率置信度均较大者为最终识别结果。   (4)为了去除功能性副语言识别模型以及传统语音情感识别模型对训练集合含有功能性副语言比例的依赖性,以及为了进一步提高识别率,提出了基于功能性副语言自动检测的语音情感融合识别方法。该方法有三点贡献,一是提出了功能性副语言自动检测,二是将功能性副语言与传统语音进行分离,避免了两种完全不同信号之间的相互干扰。三是使用自适应权重融合算法进行决策融合,考虑到了两通道的识别差异。   (5)采用Matlab和VC++混合编程的开发模式,实现了基于功能性副语言辅助的多特征融合语音情感识别原型系统。其中语音信号的读取和处理以及情感特征的提取均采用Matlab编写代码实现,模型训练、情感识别功能用VC++编写代码实现。
其他文献
当前互联网已经发展到移动互联网时代,不仅仅只有传统的PC机可以浏览互联网,手机、平板电脑等各种移动设备也可以接入互联网,计算机的信息处理已经进入大数据时代。而这些大
随着网络技术的不断发展,分布式多媒体应用已经涉及人们生活的各个领域。多媒体同步是分布式多媒体系统的关键技术和基础,多媒体同步关系存在于多媒体的整个生命周期中。分布
人脸识别一直是生物识别领域的研究热点,在计算机、(应用)数学、电子、自动化、可视化、虚拟现实、图像处理与模式识别等学科都有较广泛的研究,同时也在航空航天、气象、刑事侦
程序语言课程是计算机及其相关专业非常重要的一门专业基础课,程序语言的教学显得尤为重要。随着互联网技术的迅速发展,信息化教育成为现代化新型教育模式,然而互联网带来便
随着图像传感器的发展,图像融合技术的应用也越来越广泛。同一光学传感器在对同一场景成像时,要使场景中的所有目标都聚焦清晰是很困难的,因此,如何将同一场景中的所有目标进行融
摘要:经济的快速增长、人们生活水平的提高、新医改步伐的推进以及人口老龄化趋势的加剧等众多因素促使人们对健康保健工作越来越重视。为了节约时间和成本,广大患者群体更加
在信息技术的快速发展下,越来越多的数据库(例如参数规范,统计和生命科学数据)通过互联网发布。侵犯版权已经成为网络系统和电子商业中最具破坏性的威胁之一。此外,在线分发的数据
随着计算机技术和网络技术的不断发展和广泛应用,网络教育问题备受重视,基于网络的学习方式获得了迅速的发展,一种新的教学系统——智能化网络教学系统正在蓬勃兴起。现有的教学
互联网领域技术高速发展,产生了大量的网络数据,用户迫切需要以较快较准确的方法获取文本的核心信息,而搜索引擎给出的信息依然过多、过滥,用户很难通过搜索引擎快速准确地定位到
面对庞大的视觉信息,由于处理能力有限,人类视觉系统能自动有选择地处理复杂自然场景中的重要视觉信息,这种优先处理重要信息的能力,也称为视觉选择注意机制,让人类能够快速、准确