基于语音帧自动标注和领域知识迁移的语音情感识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:za123aaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的兴起,各种深度学习方法被运用到语音情感识别的研究中。尽管语音情感识别领域有着许多研究工作,却依然存在一些挑战,本文针对其中的三个挑战开展了一些工作。首先,语音情感的判断具有主观性,不同的人对于同一段话会有不同的解读,这个问题是天然存在的,只能以数据集的标签为标准。为了尽量拟合数据标准,本文在第三章选取了合适的卷积神经网络作为主要模型,并且通过实验比较了一些流行的深度学习模型和方法,包括一些经典的卷积神经网络模型,常用的循环神经网络和Transformer,不同的池化技术。其次,语音情感识别中的帧级训练方法会将语音样本切割成更小单位的语音帧,以帧为单位训练,这种做法给一个语音样本的所有语音帧赋予相同的情感标签,但是一个语音样本中的语音帧可能包含其它情感,比如中立情感。为了应对这个问题,本文在第四章借鉴了声音事件检测领域的多实例学习方法,将句级训练和帧级训练的两种方式结合起来,利用句级训练后得到的模型来选取合适的帧样本,进行自动标注,然后进行以帧为单位的帧级训练,该方法在三个数据集上都提升了表现。最后,目前的语音情感数据集都很小。为了在数据量匮乏的情况下尽可能的利用已有信息,本文在第五章利用了在大规模音频数据集上预训练过的模型Vggish为语音情感识别任务引入声音事件检测领域的信息,在三个数据集上都表明Vggish特征引入模型的方法可以在第四章方法的基础上再次提升准确率。本文还与其它先进方法进行了表现对比,在一个数据集上接近于最优方法,在另外两个数据集上也取得了不错的结果。本文还通过实验表明,在不同的主模型下,本文的方法都能够提升一定的准确率。
其他文献
调频连续波(Frequency Modulated Continuous Wave,FMCW)雷达由于具有无距离盲区、测距精度高且结构简单等优势,使其应用领域逐渐从军用走向民用。随着FMCW雷达的广泛应用,对
优生优育对于降低新生儿的先天畸形概率,提升生殖健康水平,乃至提高全民的整体健康水平,均具有重要的现实意义。目前,优生优育临床检测的主要标志物称为TORCH五项,分别为:弓
受到构件干涉、运动奇异等因素的影响,传统并联机构的工作空间一般比较小,某种程度限制了并联机构的应用范围。课题组通过匹配耦合支链以增大并联机构输出空间的方法,综合并获得了一批新型耦合并联机构——双并联耦合机构。本文主要针对该类新型大工作空间双并联耦合机构以及基于一种球面双并联耦合机构研制的4-RRR//RRR+R冗余支链混联球面仿人肩关节机构的部分性能特征进行研究。推导了双并联耦合机构的转动和移动叠
随着互联网行为式验证码技术的发展,以拖动滑块为代表的鼠标轨迹识别因其传输数据小、暴力破解难度大等特点,广泛运用于多种人机验证产品中。但是攻击者可通过黑产工具产生类
在传统的核酸检测研究中,往往需要加入特定的试剂、荧光剂或者探针等,同时也带来操作步骤繁杂、成本高、污染样品、污染环境等问题。本论文在不添加荧光剂或者探针进行标记的情况下,利用常规光荧光方法,对影响单链脱氧核糖核酸样品(ssDNA)荧光特性的多个因素进行了实验研究,并结合ssDNA的结构特点分析了造成这些影响的物理机制。在此基础上,还探索了不同影响因素下ssDNA样品的无标记鉴别方法。本文的主要内容
软件开发技术日益更替,由于开发的周期,项目的复杂性等原因很容易引入代码异味。研究表明代码异味会降低代码的可理解性和可维护性,致使程序出错,从而引发深层次的设计问题。
随着第五代移动通信(5th Generation Mobile Networks,5G)商用的快速推进,高带宽、低延迟和超密集连接等无线特性也越来越受到人们的喜爱。与此同时,无线信息的广播特性使得
小型飞行器一般适用于工作在城区、山地等复杂地形的空域中。由于其自身尺寸小、雷诺数低的气动特点,这种飞行环境下的突风扰动问题一直是严重制约其发展的关键性技术难题。
经济全球化加速全球服务外包产业发展,数据录入是外包业务类型之一,涉及多种数据类型。图像录入常用的方法OCR由于对如中文、日文这类字形繁杂,字形间差别较大的文字难以分辨
多标签文本分类一直是文本研究领域的研究热点之一,其在很多领域都具有广泛的应用价值,比如文本检索系统、推荐系统、情感分析以及对话系统等。在这些领域中,多标签文本分类