【摘 要】
:
情感识别是实现人机交互中的重要一环,然而由于人类情感的模糊性,使得关于情感的研究一直进展缓慢。近年来,得益于深度学习的发展,研究者们利用深度神经网络强大的特征提取能力,来提取多个模态(如图像、音频和文本)的特征。但是由于天然的多模态数据是高度异构的,使得不同模态特征之间的信息交互难以被建模。本文从单个话语片段中的多模态融合问题出发,在传统自编码器模型的基础上,提出了新颖的多通路自编码器模型,通过多
论文部分内容阅读
情感识别是实现人机交互中的重要一环,然而由于人类情感的模糊性,使得关于情感的研究一直进展缓慢。近年来,得益于深度学习的发展,研究者们利用深度神经网络强大的特征提取能力,来提取多个模态(如图像、音频和文本)的特征。但是由于天然的多模态数据是高度异构的,使得不同模态特征之间的信息交互难以被建模。本文从单个话语片段中的多模态融合问题出发,在传统自编码器模型的基础上,提出了新颖的多通路自编码器模型,通过多个独立的编码器与解码器以及一个共享的中间隐向量,在回归训练中实现不同模态数据的高度融合。同时,本文提出了可扩展的串级多头注意力模块,以在特征空间上,实现对多模态特征之间的交互进行建模。此外,针对对话中的情感识别任务,本文提出了身份编码模块,实现对对话中不同片段的长短期关联进行建模。然后利用互信息下界估计方法来提升不同模态特征之间的互信息,从而发掘模态不变信息。最后利用互信息上界估计方法,降低单模态内部输入数据与中间特征之间的互信息,从而降低数据扰动的影响。最终通过互信息上下界优化框架实现在整个信息流中对多模态数据的交互进行建模。本文在IEMOCAP、MSP-IMPROV和MELD数据集上,进行了广泛全面的实验。利用t-SNE降维技术、互信息与典型相关分析方法,进行了大量的定性与定量实验。并且在单个话语片段的情感识别任务上,实现了超过基线方法3.6%准确率的优异性能。在对话中的情感识别任务中也实现了超过基线方法2.6%的性能。
其他文献
自主水下潜航器(Autonomous Underwater vehicle,AUV)能够极大地拓宽人类在水下空间的能力边界、降低水下高危环境中的作业风险,因而在海洋观测、水雷清扫等领域获得了广泛的应用。但现阶段AUV的智能化水平远不能满足有人/无人协同作战、水下观测组网等新应用场景的需求,而高效、合理的路径规划技术则是提高其智能化水平的关键。路径规划算法需要充分考虑任务需求和自身的能力约束,并保证
快速城市化使得路网结构与功能越发复杂,增加了城市中寻路路线的复杂性,提高了城市居民的出行难度。其中,寻路难度刻画了城市中寻路路线的复杂程度,可以用描述起止点之间特定路线的信息量进行量化。为了提升人们出行的舒适度和安全性,需要深入地了解影响城市路网寻路难度的关键因素,设计寻路难度的降低措施,用于指导、启发城市路网规划,改进、完善当前的导航工具。基于此,本文从信息熵视角出发,量化城市路网的寻路难度,探
现阶段深度学习主要根据数据的预处理以及按照经验搭建网络结构,让学习任务达到令人满意的地步,然而针对不同的学习任务,搭建合适的深度神经网络是比较复杂的。近几年,逐渐有很多学者开始大胆猜测,对于常规的残差神经网络模块可以看成是一种偏微分方程,其中Ruthotto、Haber、林宙晨等人针对这种想法进行了相关研究。本文主要针对热传导型残差神经网络模型和对流扩散型残差神经网络模型做相关的研究。实验一和实验
随钻核磁共振测井技术(Logging While Drilling-Nuclear Magnetic Resonance,LWD-NMR)由于其独特的属性,对于识别储层流体类型、评估产能及测量地层与岩性无关的孔隙度、渗透率等信息具有重大意义。面向随钻核磁共振测井仪器的多物理场参数测量、回波采集、数据处理及存储等需求,设计随钻核磁共振测井仪的主控电路,采用双核DSP+FPGA的多核协同架构,实现仪器
医学影像可以显示人体各部分解剖结构和代谢情况,辅助医师进行病灶定位、诊断鉴别、病情评估等。临床诊断常用的医学成像技术有X光透视、电子计算机断层摄影(CT)、正电子发射断层扫描(PET)、磁共振成像(MRI)、超声成像等。近年来深度学习技术被广泛应用到医学图像分割任务,其中多模分割通过将来自不同模态医学图像的特征信息进行融合和转化,充分利用不同成像方式的医学图像或数据集中的信息,提高分析的准确性。目
图文联合表征是指对图像和文本信息进行联合语义表示。图像和文本是常见的两种模态,同时模态间的联合表征是支持下游任务的基础。因此图文联合表征是多模态领域最重要的研究课题之一。然而,由于图像文本之间存在信息粒度差异与语义匹配歧义,使得图文特征抽取和语义交互面临诸多困难。论文重点研究图文信息的特征抽取与语义交互,以提升图文检索的召回率,同时研究和实现了论文方法在工业系统中的应用。在图像文本信息嵌入方面,主
近年来,随着硬件设备和人工智能的不断发展,智能视频监控得到了广泛的应用,学者们对监控领域算法一直在不断挖掘和突破。本文针对家庭安防监控中的在线动作检测(Online Action Detection,OAD)算法进行了研究,根据任务特点提出了新的网络框架,并取得了较显著的性能提升。另外,本文针对家庭安防监控设计了基于树莓派的硬件监控平台,为算法的实际应用奠定了硬件基础。目前大多数的OAD算法使用单
受到细粒度的任务特性以及数据中存在的各种干扰因素的影响,行人重识别任务对算法提取到的特征的判别能力与抗干扰能力都有较高的要求。为此,本文在多示例空间聚合思想的基础上,分别从提升局部示例判别性、抗遮挡模式发现与身份属性信息学习三个方面展开研究工作。针对特征的判别能力与鲁棒性的问题,一种基于局部示例判别能力增强空间聚合方法被提出,在全局空间聚合的范式下,利用NetVLAD编码提高局部特征的判别能力,同
得益于其广泛的应用场景,人脸属性编辑任务近来备受关注。但现有的人脸属性编辑算法很难精确地控制人脸属性,编辑结果存在着严重耦合。论文发现Style GAN2网络中存在着属性特定的控制单元,提出两种属性编辑算法操纵控制单元,实现了更加多样且精准的人脸属性编辑。为了编辑真实人脸,还提出了一种能维持隐编码的可编辑性,同时更准确地重建输入图片的反编码算法。首先,发现网络的中间特征和调制参数存在着明显的局部相
异常检测属于计算机视觉领域的基础研究之一,其目的在于构建模型发现与主体数据分布不同的异常值。由于实际中异常的多样性和稀缺性,异常样本通常难以获得,因此,异常检测常作为一个数据缺失的无监督式问题进行研究。近年来,基于深度学习的判别式算法是处理异常检测问题具有最先进水平的一类算法,本文将对这类算法进行研究,主要内容可以分为下面三个部分。与基于变换的自监督学习相结合的判别式算法是被广泛使用的一类异常检测