基于深度时空表征的语音情感识别研究

来源 :天津师范大学 | 被引量 : 2次 | 上传用户:saoluan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人与人之间最自然、最直接的交流方式,蕴含着丰富的情感信息。语疸情感识别的目的是在人机的交互过程中,计算机可以通过语音信号判断人的情感状态,从而对人的工作起到监督、辅助和引导的作用,如何让计算机自动识别语音情感是一项重要且具有挑战性的任务。以前的情感识别方法首先根据专家经验从语音中提取与情感相关的手工制作特征,运用特征选择方法对情感特征向量进行特征选择和降维,然后训练出语音情感识别的分类器。然而浅层的机器学习方法在很大程度上依赖于手工特征提取,制约了语音情感识别性能。随着深度学习技术的在各个领域的广泛应用,如何有效的利用深度学习提取高维语音情感表征开始成为了研究热点。本文主要针对语音情感信号的特征提取和语音情感识别的建模问题,从认知科学角度出发,结合深度学习方法,提出了自动提取时间、空间高维特征和时空特征融合表示的框架,在很大程度上避免了手工提取特征所造成的依赖问题并有效的提取语音的情感信息,丰富了语音信号的情感表达。主要研究内容包括:第一,针对现有语音情感只考虑与情感相关的声学特征的问题,从认知科学出发,提出基于深度学习的时空高级特征融合方法,结合FCN和BLSTM的优势,基于FCN-Attention BLSTM进行时空特征提取并进行分类预测。新的特征提取方式有效地模拟了语言情感的特性,在中国自然视听情感数据库(CHEAVD)和IEMOCAP语料库的实验结果表明,所提出模型在无权重正确率(UA)和权重正确率上(WA)有了较大程度的提高,与其他现有的语音情感识别算法结果相比,在CHEAVD数据库上,UA、WA提高了4.6%、6.4%,在IEMOCAP两个子数据库上,UA提高了3.9%、0.5%,WA提高了4.7%、1.6%。第二,针对基于FCN-Attention BLSTM模型训练速度和识别速度较慢的问题,提出扩张因果卷积神经网络用于提取时间特征,解决了BLSTM输入整段语音计算导致的GPU显存消耗增大、模型运算速度慢的问题。相较于FCN和基于注意力的BLSTM模型,在UA和WA损失1%~2%的情况下,将语音情感识别的单张测试速度由2.8s~3.5s提升到1.9s~2.1s,批量测试速度提高了5~7倍。
其他文献
在小学校布点规划之初,学生步行上学和步行安全问题就以成为规划者首要考虑的重点问题。如邻里单位中提出的以500m服务半径将小学布置于社区中心和小学生不跨越城市道路就近
目的观察1%和3%的戊巴比妥钠静脉麻醉对家兔体温、血压、呼吸、心率、血氧饱和度和血钾、血钠、血氯及尿素氮的影响。方法两组家兔分别用1%和3%的戊巴比妥钠静脉麻醉,分别记
各大打印制造商都纷纷推出了高清系列产品。Garrick Webster
植物次生代谢组分表型差异的驱动机制一直是植物基础研究邻域中的重点和难点,研究工作者们对此开展了大量的科学研究工作,探索出了许多代谢途径和提出了可能的影响因素,并进行了实践验证。然而,植物次生代谢组分表型差异的驱动机制仍有待解决,因此,本论文以鱼腥草(Houttuynia cordata Thunb.)为研究模式植物,运用组织培养技术消除外界差异,阐明鱼腥草的次生代谢表型差异主要是自身基因还是外界环
目的探讨不同水平血清胆红素对ABO血型不合性溶血病新生儿细胞免疫功能的影响及照射蓝光前后的变化。方法使用流式细胞仪法检测不同水平下胆红素CD4+、CD8+、CD40L的表达。结果
一、网络安全态势评估综述    网络安全态势评估是网络安全态势感知模型中核心层次之一,反映了网络行为、用户操作、网络运行情况对网络整体安全情况的影响。网络安全态势评估过程是利用各种技术获取评估所需的微观原始数据,从中分析提取所需的安全状况信息,再按照评估模型进行一系列的数学运算,最终得到宏观的网络安全态势知识,网络安全态势评估系统包括了态势评估所有支撑条件,是完整的网络安全态势评估的具体实现。
糖尿病患者尿巨噬细胞移动抑制因子(MIF)水平与糖尿病肾病(DN)的相关性。方法选择糖尿病患者80例和健康对照者40例,收集尿液。糖尿病患者根据尿白蛋白排泄率(UAER)分为:糖尿病无肾病
今年度最有意思的两场比赛——Levi's Digital Arts Award和Association of Illustrators Image 30 Award——向参赛者大开门户。
通过对清平文家沟“8·13”特大册洪泥石流的形成原因进行分析,说明其发生泥石 流的必然性和对绵远河清平段的巨大危害性。提出了河道的排险治理措施,并开展了河道排险施工
随着大数据时代的来临,人们每天都在接触各种各样的数据信息。据统计,人类从外界获取的信息约有80%以上都是来自视觉系统,良好的可视化更能有效的帮助人们理解数据背后隐藏的信息,发掘出数据之间的规律。但随着计算机行业高新技术的兴起,数据模型也越来越复杂多变,因此需要将可视化技术与机器学习技术相结合更高效的去处理数据。然而目前大多数的研究者都关注于机器学习算法本身的优化,却忽略了对算法输出结果的可视化,无