【摘 要】
:
近年来随着网络平台的发展,图像、视频等数据高速增长,多模态数据的研究与应用价值愈发凸显。这些多模态形式的数据蕴涵着人类丰富的意见与情感信息,具有高度的理论研究意义与实际应用价值。然而在多模态融合策略方面,目前多数融合方法关注于融合的阶段选择或融合的模型选择,缺少完整的多模态融合框架。在多模态表示学习方面,目前多模态表示学习的方法在模型输出时往往采用特征拼接或简单的融合方式,忽略了多模态特征有效融合
【基金项目】
:
河北省自然科学基金面上项目(F2018201115); 河北省教育厅科学技术研究重点项目资助(ZD2019021); 河北大学高层次创新人才科研启动经费项目;
论文部分内容阅读
近年来随着网络平台的发展,图像、视频等数据高速增长,多模态数据的研究与应用价值愈发凸显。这些多模态形式的数据蕴涵着人类丰富的意见与情感信息,具有高度的理论研究意义与实际应用价值。然而在多模态融合策略方面,目前多数融合方法关注于融合的阶段选择或融合的模型选择,缺少完整的多模态融合框架。在多模态表示学习方面,目前多模态表示学习的方法在模型输出时往往采用特征拼接或简单的融合方式,忽略了多模态特征有效融合的重要性,且易导致部分特征的信息冗余。基于上述挑战本文从构建多模态融合完整框架及构建多模态多阶段学习框架的角度出发进行研究,主要贡献分为以下三部分:一、受心理学中情感唤起模型启发,首次从人类情感相关的脑神经系统的角度提出深度情感唤醒网络的多模态融合框架,建模人类情感表达过程。首先采用跨模态Transformer模块来模拟人类的知觉分析系统,通过辅助模态增强目标模态特征,完成模态信息间的初步交互过程。然后利用多模态LSTM系统模拟大脑中认知比较器,通过多模态LSTM系统弥补Transformer结构时序建模能力的不足,对不同模态特征进行时间维度上的内部建模。最后提出一种多模态门控模块模拟神经系统的激活结构,并根据不同模态的重要性自适应的控制输出。二、提出一种深度模态交互网络,由跨模态Transformer模块与时序层次融合网络两部分构成。第一部分跨模态Transformer模块通过cross-talking注意力机制使孤立的注意力头相互联系,不同的注意力头分布相互叠加,从而增强模块的分布表达能力。第二部分时序层次融合网络以LSTHM为基础对多模态特征进行时序性的建模并在LSTHM中嵌入层次融合模块分别对单模态、双模态和三模态层次性建模。三、从多模态不同阶段的学习过程出发,提出一种基于深度典型相关分析表示的多模态融合网络框架由特征提取、特征表示、特征融合三个阶段构成。在特征提取阶段使用预训练模型对不同模态特征提取。特征表示阶段分别对不同模态间采用深度典型相关分析进行多模态特征协同表示,减少各模态特征噪声。在特征融合阶段采用层次融合模块对不同模态间的相互作用逐层的交互融合,减少低效融合带来的特征信息冗余问题。
其他文献
生鲜产品两级供应链网络设计问题在整个生鲜产品供应管理中,占有十分重要的地位.目前,中国生鲜产品市场的交易规模很大,但是基于现有的配送网络,部分生鲜产品还未送到顾客手中就发生了损坏、变质,这给企业乃至国家带来了巨大的损失.合理地设计配送中心到零售超市的两级供应网络可有效缓解上述情况.对于决策者而言,如何在不确定需求条件下合理地设计该两级供应链网络是一个难题.为此,本文使用鲁棒优化方法帮助决策者设计能
1991年,Korte等在研究组合优化问题时提出拟阵的一种拓广结构―广义拟阵.广义拟阵一方面拥有拟阵的许多性质,另一方面还解决了利用拟阵结构所不能解决的很多问题,由于广义拟阵的提出,使得拟阵理论的应用被拓展.三支决策作为二支决策的拓广形式,是由Yao于2009年基于粗糙集提出的,到目前为止,三支决策在许多方面都发挥了重要作用,特别是对于知识提取方面,发挥着不可忽视的作用.将广义拟阵中的可行集视为已
趋化性是指因受到外界环境中化学物质的作用,微生物或细胞向着有利于自己的方向运动.不管是微观世界还是宏观世界,都可以发现生物细胞或有机体因周围环境中化学物质的分布情况而出现趋向运动.一些无脊椎动物具有独特的授精策略,雄性和雌性分别将精子和卵子释放到周围的水流中,这一现象被称为广播产卵.一些实验数据表明,趋化性在珊瑚的产卵问题中发挥了作用:精子会被卵子释放的物质吸引.由此,众多数学学者提出了有关趋化系
经典批量模型在库存管理中有着广泛的应用,主要解决独立需求的库存管理问题,该模型的需求往往是确定的.但因为现实生活中市场环境复杂,市场竞争激烈,很难满足需求不变的条件.此外,随着企业低碳意识的增强,在低碳政策的基础上研究批量模型同样引起了大量学者的关注.本文运用鲁棒优化理论和滤子方法,对不同碳排放政策下需求波动的库存定价模型进行求解,数值结果为决策者提供了指导性的意见.本文内容包括三个方面.首先修正
如何构造3-李代数与3-pre-李代数是n-李代数研究中的重要问题.本文利用3-李代数Aw上权为1的齐性Rota-B axter算子,Ri(1 ≤i ≤34)与权为0的齐性Rota-B axter算子Si(1 ≤i ≤4),分别构造了 7类两两不同构的无限维3-李代数Ci(1≤i≤7),与3类两两不同构的无限维3-pre-李代数Di(1≤i≤ 3).并对所得到的3-李代数与3-pre-李代数的结构
信息粒化是一种将复杂问题简单化,将抽象问题具体化的思维方法.形式概念分析、三支决策、粒计算是当今知识发现与信息提取领域中的三个重要的信息粒化方法.在工程施工的质量评判中有十分重要的两大类,一类对工程复合材料质量评判;另一类对天然岩体质量评判.由于水泥混凝土是当代最主要的工程复合材料之一,地下工程岩体是当代桥梁、隧道等地下工程中重点研究的天然岩体之一,所以两者在现代建筑当中都扮演着十分重要的角色.而
传统的支持向量机(support vector machine,SVM)在分类问题中取得了较优的性能,得到了工业界和学术界的关注,研究者们陆续提出了SVM的多种变体。作为SVM的改进模型,最小二乘孪生支持向量机(least squares twin support vector machine,LSTSVM)比SVM的训练速度更快,分类准确率更高。除了上述用于解决两类分类问题的模型,单类支持向量机
本文研究拟线性椭圆方程组解的正则性和退化椭圆方程的分布解的正则性.首先,考虑由N个方程组成的拟线性椭圆方程组这里 α ∈ {1,...,N}是方程指数,N≥ 2,Ω(?)Rn,n≥ 2 为有界开集,u=(u1,...,uN):Ω→RN,f是可积函数.在所有系数的椭圆型,有界性和非对角系数“蝴蝶形支撑”的条件下,给出弱解的局部和全局的正则性结果.其次,考虑如下形式的退化椭圆方程的先验估计以及分布解的
机器学习是实现人工智能的一个途径,让计算机像人类一样具备自我学习能力,根据不同需求找出相应的信息。聚类是机器学习的一个研究方向,用无监督的方式寻找相似样本并归为一类。基于深度学习的联合训练带来聚类性能的突破,其预训练的结果对后续聚类任务有直接影响。一些聚类算法在不同数据集上使用不同的网络结构代表泛化能力较差,而且聚类性能相对于分类性能仍有很大的提升空间。因此本文对基于自监督特征表示的聚类算法展开研
由于在数理经济,模糊优化,过程控制和决策论等科学领域的应用,许多学者致力于将单值测度与积分理论的结果推广到集值环境中,得到集值测度与积分理论相关知识并应用于实际生产生活中.本文对集值非可加测度与积分理论进行研究.首先提出一种新的Banach空间上的集值非可加测度概念,本文称之为弱集值非可加测度,并讨论其性质,接着给出实值函数关于该种测度的积分概念并讨论它们的性质和结构特征.主要的研究内容如下:(1