基于跨模态交互的图像文本匹配方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hrbwqwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像文本匹配在连接视觉和语言方面起着至关重要的作用。目前的一部分先进方法试图通过丰富的特征编码推断更有视觉语义性的全局对齐信息;而另一部分模型通过采用跨模态的注意力单元来捕捉区域和单词之间的潜在局部对应关系,然后将所有的对齐信息整合得到最终的相似度。无论是开发图像和文本之间的全局对齐,还是探索区域和单词之间的细粒度对应关系,都取得了令人印象深刻的成功。然而,这些工作都面临两个亟需解决的问题。首先,如何充分桥接并高效融合全局和局部对齐信息来推断出更准确的匹配分数,仍未得到充分的探索。另外,这些工作大多注重设计复杂的架构或者引入额外的信息来优化跨模态交互和融合过程,忽略了网络本身的强大的调节能力。针对第一个问题,本文提出了一种用于图像文本匹配的相似度图网络推理和注意力过滤(SGRAF)网络。具体来说,首先学习基于向量的相似度表示,以更全面地表征局部和全局的对齐信息,然后引入采用图卷积神经网络的相似度图网络推理(SGR)模块,以感知局部和全局相似度的关系。相似度注意力过滤(SAF)模块通过有选择地关注重要的和有代表性的对齐信息,同时抛开无意义的对齐信息的干扰,从而有效地整合这些对齐来辅助SGR模块。针对第二个问题,本文提出了一个循环对应调节器(RCR),它迭代地完善跨模态注意力单元,从构建的对齐信息学习到更准确的潜在对应关系;此外,还提出了一个循环聚合调节器(RAR),它通过权衡和更新聚合权重来强调重要的对齐,并淡化不重要的对齐。有趣的是,RCR和RAR是“即插即用”的:它们都可以与许多现有的框架整合以获得显著的效益,二者的结合可以带来了进一步的提升。本文证明了所提出的方法的有效性和通用性,在Flickr30K和MSCOCO数据集上实现了最先进的性能,并通过大量的实验和严格的分析证明了SGRAF和RCAR方法的良好可解释性和实用性。
其他文献
在能源过分消耗与环境持续破坏的大背景之下,工业领域对于汽车的轻量化技术提出了更高的需求。由于复合材料的优秀力学性能,使用复合材料代替汽车原有的金属材料,可以有效地减轻汽车的重量,提高续航里程,降低尾气排放,有利于环境保护与降低能源损耗。复合材料的性能与各组分材料的含量、性能、分布形式以及界面特性等密切相关,实验的方法难以进行多变量控制,有限元仿真的计算方法受限于计算机的性能,基于多尺度理论分析的解
车载内容中心网络是一种将内容中心网络概念应用到车载网环境下的网络架构,作为其基本特征的网络缓存使得缓存数据在多个节点间的共享成为一种高效数据访问方式。然而车辆的移动性和连接的稀疏性问题使得车辆与车辆之间缺乏良好的协调,导致各个节点缓存的内容冗余度高,缓存空间利用效率低下,路边单元(Road Side Unit,RSU)只能被动地处理来自车辆的请求,难以主动为车辆提供服务,无法充分发挥RSU的缓存能
近几年科技和信息的发展带动基础设施供应链迅猛发展,随之而来的基础设施安全问题也越来越被全世界关注。基础设施供应链在公共服务系统和物流链中一直扮演重要的角色,它越来越多被应用到机场,消防局,物流工厂等领域中。而这些设施在遭受到恐怖袭击或者自然灾害后可能对现代社会的经济发展和社会福祉产生巨大的危害,所以保护它们的安全是这些产业平稳运作的基本前提。在轴辐网络中关于枢纽拦截和枢纽保护还存在许多挑战难以攻克
随着科学技术的不断进步以及对竞技体育越来越高的目标追求,将信息化辅助工具应用在体育比赛与训练当中已经成为一种趋势。排球项目是国家重要的体育项目之一,教练及运动员一直在寻找排球训练环节中的突破点,希望通过制定更加有效的针对性训练方案,实现运动员各项运动水平的不断提高。对于训练中产生的大量训练内容,其分析与统计工作目前仍停留在经验判断以及人工统计层面,教练员主要通过现场指导以及观看训练视频回放的形式对
随着工业互联网的应用越来越广泛,其安全问题也开始逐步受到重视,在攻击者之前发现其存在的潜在安全隐患是十分重要的。模糊测试是一种常用且简单高效的漏洞检测工具,目前在工业互联网漏洞挖掘中也应用广泛。在传统的协议模糊测试方法中,生成测试用例需要花费大量人力和时间来对协议规范进行分析,且随着协议的改变,生成方法将不具备通用性。因此需要设计一种能降低协议分析成本且能得到较好测试效果的模糊测试方法。近年来随着
石油炼化行业是我国重点耗能产业,随着人们需求的增加,生产规模不断扩大,能源需求量随之提高,节能降耗成为当下工作的重点。常减压装置在炼油过程中能耗占比最大,且负责重点产品的产出,其能效水平直接关系到能源的利用效率和企业的经济效益,因此面向常减压装置进行能效评估和能效优化的研究具有重要意义。本文以国家863项目“面向石化工业能效监测评估及优化控制技术与系统”为背景,针对常减压装置单位综合能耗产出量这一
网络在信息化的社会中已经拥有不可取代的地位,然而频发的网络安全问题也不可被忽视,与教学和生活息息相关的校园网也是如此。出口带宽限制、威胁事件突发等问题都会带来严重的后果。防火墙的部署能够有效管理网络,其产生的日志中包含各种信息,分析这些数据能够及时了解网络状态。然而防火墙等网络设备产生的日志数量增长过快,如何高效地完成对海量日志数据的处理,又是一个亟待解决的难题。基于以上的问题和需求,本文以防火墙
铝电解电容器是寿命敏感器件,随着时间的推移,其参数退化到一定程度时,必然会影响电路板的寿命,故而研究其退化规律与寿命特征是至关重要的。文章从铝电解电容器结构和退化机理出发,将温度作为加速敏感应力设计了加速退化试验,并采用加速退化数据进行寿命预测,给出了延长铝电解电容器使用寿命的正向设计方向;从状态修的需求出发,提出了基于BP神经网络的铝电解电容器剩余寿命预测方法,其预测数据来源既可以是现场实测数据
显著性目标检测对于图像理解的进步至关重要,并且已在各种计算机视觉和图像处理任务中展现出巨大的潜力。现有的显著性目标检测算法根据输入图像类型可以分为RGB、RGB-D和光场方法三类。不同于RGB数据,RGB-D和光场数据通过深度图、多视角图和焦点堆栈提供了场景的精确几何信息,如此丰富的几何信息可以为显著性目标检测在挑战性场景下提供有效的显著性特征。然而,显著性目标检测作为许多任务的预处理步骤,要求高
随着数据规模和计算资源的快速增长,机器学习在理论和实践两方面都取得了长足进展。传统机器学习算法需要大量的标注数据用于训练,然而在诸多实际应用中获取大量标注数据的代价非常高。此外,传统机器学习算法通常依赖于训练数据和测试数据服从独立同分布这一假设,然而在实际应用中上述假设往往难以成立。域适应放宽了这一假设,能够从具有丰富标签数据的相关领域进行知识迁移与复用,是解决目标任务标注数据稀缺的一种基础方法。