基于语音和文本的双模态情感识别研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:zhang760327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将语音情感识别技术应用于对话系统中可提高计算机的智能化,是人机交互领域的重要研究方向之一。由于语音中不仅包含表达情感的声学特征,还包含丰富的语义信息。因此,该文基于语音和文本两种模态,对不同的语音特征选择及模态融合方式进行相关研究,构建了三种不同的双模态情感识别模型,旨在提高情感识别的准确率。具体研究内容如下:首先针对语音和文本的跨模态特征层融合,构建了基于卷积循环神经网络的双模态情感识别模型。该模型采用特殊尺寸卷积核加残差块的结构提取语音情感特征,采用长短时记忆网络加多头注意力机制的结构提取文本情感特征,然后采取直接级联两种模态情感特征的方式进行融合。通过对单模态模型进行参数对比实验,选择最优的模型参数,最终的实验结果证明了双模态模型可以利用语音和文本的互补性,并在每种情感的识别精确率上均优于单模态模型。其次为了充分利用语音和文本模态间的时域相关性,构建了基于注意力机制和特征对齐的双模态情感识别模型。该模型利用沉默消除算法删除语音中未发声部分,然后通过注意力网络将语音特征转换为每个单词在表述时的语气特征,并将该语气特征与文本编码在时域上对齐拼接以得到融合特征。通过多个对比实验证明了沉默消除算法和注意力机制在情感识别模型中的有效性,且相对单模态模型有较大的性能提升。最后针对单个编码器无法为不同语音特征分别建模的问题,构建了基于多流输入和特征对齐的双模态情感识别模型。该模型通过单模态和双模态的情感识别实验,分析九种不同语音特征对情感识别的敏感度和对文本特征的契合度,并选取其中三种作为模型输入,之后采用多流输入的方式对三种语音特征分别建模以完成融合。通过对三种不同特征组合的实验表明,多流输入的方式能捕获更多的情感信息,提高情感识别精度。
其他文献
情绪在日常生活中起着重要的作用,影响着人类的心理和生理健康。精准、快速、安全的识别人类情绪状态对社会的发展有着积极的意义。随着机器学习和神经科学的快速发展,情绪识别已经成为脑机接口领域的一个研究热点。情绪识别方法可以分为两类,第一类是基于非生理信号,如面部表情。第二类是基于生理信号,如脑电信号。在各种生理信号中,脑电信号是最常用的信号之一,它能反映人的心理状态,且具有难以伪装的特点。此外深度学习在
学位
随着全球化水平的不断提高,个体拥有多样化的教育选择,越来越多的家长给自己的孩子选择国外求学的道路,由于双语/国际学校费用较高且资源分布地区不均匀,大部分家长安排孩子K1-K9阶段在体制内就读,中学阶段转到了国内国际学校就读,经过高中的三年的国际课程体系的学习,为大学阶段出国留学做准备。这部分学生在入校后遇到了不同的适应性问题,主要表现为学业成绩不佳。现有探讨学业成绩影响因素的文献大多以公立学校或高
学位
学生宿舍是一个很重要的场所。住宿生的身心健康发展、学业成绩都与宿舍生活导师是否能管理好宿舍有着十分重要的链接。研究宿舍管理制度问题,对于提升宿舍管理和推动住宿生的身心健康有着重大的意义和关系。本文将以X中学宿舍为例,拟解决的核心问题是“X中学在宿舍管理方面有何特点,存在何种问题”,以需要层次理论、目标管理理论和自我管理理论为理论基础,利用问卷法和观察法,对“宿舍管理制度”进行调查研究,发现,X中学
学位
该文针对目前视频显著目标检测方法在处理边界特征时的不清晰问题,采用边界细化的方法来提高显著目标检测的准确程度,完成了基于边界感知和运动融合的视频显著目标检测算法设计。同时借鉴基于deep snake的图像实例分割算法,提出了基于deep snake的视频显著目标检测和分割算法,并完成了视频显著目标的检测与分割。针对半监督视频显著目标检测算法产生的伪标签不清晰的问题,采用在伪标签生成过程中增加循环增
学位
图像检索是计算机视觉领域的一个重要研究方向。近年来,图像检索的研究范式逐渐从基于传统算法的研究过渡到基于深度学习的研究,但图像检索最本质的追求始终是试图去获得对于一幅图像的良好表示。具体到细粒度图像检索领域,对象类别的划分粒度由传统的大类划分进一步细化到大类下的子类划分,甚至于身份粒度级别的划分,相应的产生了类内差异大于类间差异的问题,这使得细粒度检索成为比传统图像检索更具挑战性的研究课题。该文立
学位
癫痫是一种较为常见的神经系统疾病,具有突发性和反复性,至今仍不清楚其发病机制。研究表明大脑既具有功能整合的性质,也具有离散特性,且脑网络是不断进行重组的动态网络,其网络结构也会随之发生改变。因此,传统的脑成像研究存在一定的局限性,在脑网络的基础上利用动态社区检测和图卷积的方法预测脑网络的动态特性对癫痫等脑部疾病的治疗具有重要意义。首先,利用五位耐药性癫痫患者的颅内脑电数据,经过带通滤波、选择导联等
学位
目的 探讨预后营养指数(PNI)预测老年重症COPD病人预后的价值。方法 回顾性分析2016年1月至2019年12月扬州大学附属医院收治的132例老年重症COPD病人的临床资料,采用ROC曲线判断PNI与病人预后相关性并计算最佳截断值,通过电话回访病人入院6个月后是否生存,分为死亡组和存活组,比较2组病人临床指标。采用COX回归模型和Kalan-Meier曲线探究PNI与老年COPD重症病人生存不
期刊
小目标检测是一个极具挑战的热门研究。随着深度学习在计算机视觉领域的广泛应用,基于深度学习的目标检测算法也层出不穷,性能较之传统的目标检测算法大大提升,并成功应用于国防安全、智能交通和工业自动化等领域。尽管深度学习的出现推动了目标检测领域的发展,然而小目标检测的效果和中、大目标的检测效果相比仍有一定差距。错综复杂的场景,多种目标的密集分布,目标尺度过小等等问题都增加了小目标特征提取的难度。该文围绕基
学位
量化下单过程依靠程序计算提取筛选大数据中的数据并制定策略,使用理性的数学模型,代替了传统交易中的人工作业,能够有效的减少投资者的情绪波动对期货交易的不利影响。高频率下单能够对金融市场上意外出现的变化进行极速判断和反应,降低被收割的风险,给投资者带来稳健的收益。计算机技术在期货市场中的应用已成为一种技术潮流。目前国内各大交易所纷纷推出自己的交易接口,市场上的大部分期货公司也都部署了上期技术综合交易平
学位
激光散斑成像技术是一种非接触的光学测量技术,可以弥补直接接触人体测量方法的不足。随着电子技术的快速发展和医疗设备的更新换代,对非接触式、无创的测量血流速度和心率信号要求越来越高。该文利用激光散斑成像技术对血流速度信号和心率信号进行测量。首先,针对高成像质量图像获取问题,选取氦氖激光器、扩束器和相机搭建了激光散斑成像系统,为血流速度和心率信号的测量提供硬件基础,同时为算法处理提供数据支持。为更加直观
学位