基于深度学习的语音情感识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:suitky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域的发展日新月异,语音这一最直接便捷的交流通道,正受到越来越多的研究学者们的关注。语音中包含语句文本的字面意思和人的主观情感,只有让机器理解人类的感情,才能获得完整的语音信息,以能够实现人机之间和谐的语音交流。当下,远程互动教育、人性化的机器客服、心理辅导机器人等丰富多彩的应用在不断催促着语音情感识别领域的发展。但目前语音情感识别仍然面临诸多问题,主要是如何选择、构造对情感分类有效的语音特征,如何建立高性能的识别模型。本文先介绍了一种梯度提升树算法和岭回归的混合模型,再搭建了一套深度学习神经网络模型进行实验。本文先构建的是基于Light GBM的混合模型,使用open SMILE提取了Inter Speech国际语音情感挑战赛使用的8个特征集,在这8个特征集上分别训练一个Light GBM模型,然后将这些模型与岭回归混合,混合模型能够综合从不同特征集上学习到的信息,并通过岭回归来防止过拟合,从而获得了良好的识别性能。本文搭建CNN、LSTM和注意力机制混合的深度学习模型,把音色谱和MFCC、滚降频率等基于谱的启发性特征,通过CNN在每帧上抽取高级表征的时间序列,然后使用LSTM分析,之后通过注意力机制来利用LSTM中全时刻的状态信息,并专注于更具情绪分辨力的部分,从而提高了识别性能,本文通过设置3个对照实验,验证了注意力机制的效果。之后本文使用双向LSTM替换单向LSTM,由于双向LSTM能学习到上下文信息,对识别效果有一定提升。
其他文献
NDR2是丝/苏氨酸蛋白激酶NDR(nuclear Dbf2p-related kinase,NDR)家族中的成员之一。NDR是一类非常保守的丝/苏氨酸蛋白激酶,广泛参与多种细胞生物学功能,如细胞增殖、凋亡、
直方图均衡是图像增强中的经典算法,由于其操作简易、复杂度低,故具有实用价值,可用于视频的实时增强。但是传统的直方图均衡虽然能有效提升图像对比度,同时它也存在着过度增
镉(Cd)是环境中常见的重金属污染物,镉对机体的伤害呈多系统性,其中脑是镉损伤的靶器官之一,镉可以诱导神经细胞发生凋亡。细胞凋亡的途径主要包括死亡受体通路、线粒体通路
子痫前期是妊娠期特有的疾病,其病因及发病机制不清,大多数学者认为可能与某些遗传因素引发的免疫功能失调,造成滋养细胞侵润障碍,导致胎盘浅着床有关[1]。杀伤细胞免疫球蛋
LCL型并网逆变器是新能源与电网之间连接的桥梁,其控制性能直接影响着分布式发电系统的并网电流质量。尤其是在弱电网环境下,各个逆变器之间、逆变器与电网之间会产生耦合关系,导致逆变器的谐振问题加重,并网电流质量下降,严重影响分布式发电系统的稳定运行。本文以三相LCL型并网逆变器为研究对象,分别就逆变器的固有谐振、弱电网下的单机和多机并联系统的谐振特性进行了研究,并相应地研究了抑制谐振的控制策略。首先,
1978年以来,我国旅游业发展迅速,经过30多年的发展已成为国民经济的支柱产业。近年来旅游业已经成为拉动经济增长的重要力量,随着旅游经济规模的持续扩大、对国民经济的贡献