【摘 要】
:
随着图像、文本、视频等多模态数据的快速增长,如何高效且精准地进行跨模态检索成为了一个亟待解决的问题。跨模态检索旨在通过为不同模态的数据建立匹配关系,从而实现以某一模态数据作为查询,检索到具有相同或相近语义的其他模态数据。由于不同模态数据的底层特征之间存在异构鸿沟,使得对异构数据进行语义对齐有了很大的挑战性。本文主要针对跨模态检索中的图文匹配任务展开研究。首先,受到多任务学习和层次化表征学习的启发,
论文部分内容阅读
随着图像、文本、视频等多模态数据的快速增长,如何高效且精准地进行跨模态检索成为了一个亟待解决的问题。跨模态检索旨在通过为不同模态的数据建立匹配关系,从而实现以某一模态数据作为查询,检索到具有相同或相近语义的其他模态数据。由于不同模态数据的底层特征之间存在异构鸿沟,使得对异构数据进行语义对齐有了很大的挑战性。本文主要针对跨模态检索中的图文匹配任务展开研究。首先,受到多任务学习和层次化表征学习的启发,提出一种多任务层次化卷积网络(Multi-Task Hierarchical Convolutional Neural Network,简称MT-HCN)。该网络以图文匹配任务和图文分类任务构建多任务学习,并在卷积网络的高低层同时进行多任务学习优化,从而将模态数据的特征表示分成了两个层级,即外观表示和概念表示。此外,还提出了一种两阶段的难分负样本挖掘策略,针对难分负样本进行模型优化以提高模型的鲁棒性。在推理阶段,本文将模态特征的外观表示和概念表示融合,以得到信息丰富的嵌入特征,从而有利于跨模态语义对齐。其次,从特征增强的角度,提出一种多模态记忆增强注意力网络(Multi-modal Memory Enhancement Attention Network,简称M3A-Net)。该网络以通道注意力和片段注意力构建双注意力模块,用于提高模态特征的判别力。同时设计了可与深度网络交互的多模态记忆增强模块,用于存储学习到的上下文知识。两个模块通过串联的方式与深度网络进行融合,共同贡献于改善图文数据的联合语义嵌入。上述两种方法均在主流的公开数据集MSCOCO和Flickr30k上进行了大量实验,并且验证了两种方法的先进性与有效性。
其他文献
高光谱图像能够在表征地表物体空间位置的同时提供丰富的光谱信息,已广泛应用于环境监测、地质勘探、现代军事等诸多领域。作为高光谱图像应用中的一项基础任务,高光谱图像的类别划分受到了研究人员的广泛关注。虽然有监督的高光谱图像分类取得了较好的性能,但其通常需要大量有标记的数据以监督网络模型的学习。因此,如何以无监督的方式对高光谱图像进行聚类以实现类别划分具有重要的研究意义。无监督高光谱图像聚类旨在没有类别
目的 探究某市2017~2021年新生儿死亡现状及其发生因素,总结新生儿死亡评审工作经验,合理制定干预对策,以降低新生儿死亡率。方法 收集某市2017~2021年新生儿死亡相关数据,对新生儿死亡相关评审资料开展分析。结果 2017~2021年全市出生活产新生儿413018例,新生儿死亡491例,新生儿死亡率总体呈下降趋势,死亡率由2017年1.46‰下降到2021年的0.89‰,下降幅度为0.57
目的 将BOPPPS教学模式运用于儿童消化系统疾病临床教学中,剖析BOPPPS教学模式在儿科医学临床教学中的运用实践效果。方法 将2020年10月—2021年11月消化科住培医学生的临床小讲课教学环节中按批次分别使用传统教学法和BOPPPS教学法,并将两组学生的教学效果通过访问和考核发的结果分别进行比较。结果 通过访问学生学习情况及考核调查结果显示,使用BOPPPS教学法组兴趣度及考核正确率明显高
深度卷积神经网络结构的设计是非常具有挑战性的工作,需要根据任务本身的特点以及专家的经验进行大量的尝试。提高网络性能往往需要更加复杂的网络结构;而随着网络模型复杂度的增加,网络结构的设计也愈加困难。因此,一些工作开始研究网络结构搜索算法使得计算机能够自动搜索出性能优秀的神经网络结构。但是,当前的网络结构搜索方法还存在搜索过程不稳定等一系列挑战。本文首先从解决图像分类任务的网络结构入手,手工地进行了深
电子散斑干涉测量技术(Electronic Speckle Pattern Interferometry,ESPI)是一种现代光学检测技术,因其全场、无损、非接触等优点被广泛应用于诸多实际工程领域。在实际应用中,被测物的信息被反映在条纹图的相位中,所以准确地提取相位是成功应用ESPI技术的关键。条纹骨架线法是提取相位最直接的方法,该方法涉及去噪,二值化,骨架线提取,插值等技术。随着深度学习的发展,
<正>(2019年8月18日起)为进一步保障实验动物的福利,不断提升动物实验研究的水平并获得国际学术界同行的认可,根据我国和北京市实验动物有关法规和标准,在实验动物麻醉方法中,鉴于水合氯醛原属于镇静、催眠及抗惊厥药,作为麻醉剂效果较差,刺激性强、毒副作用较大,存在干扰实验结果、对实验动物不人道和有悖实验动物福利伦理审查原则等问题,国外期刊普遍建议不再使用水合氯醛作为实验动物的麻醉剂。因此,本刊自2
分布式光纤传感系统以光纤作为传感和传输元件,可以在整个光纤传感路径上实现分布式连续传感,且具有灵敏度高、耐高温腐蚀、抗电磁干扰、监测距离长等优点,被广泛的应用于机场、小区、边防等重要场所的周界安防中。光纤传感信号通常是非平稳的,在实际应用中,扰动信号具有复杂的信号模式,且易受各类噪声的干扰。如何准确实时的识别出入侵扰动信号,实现有效的入侵预警是周界安防领域研究的重点。本文针对入侵扰动信号的特征和实
在振动监测领域,传统的接触式监测由于使用方法的限制,其应用具有一定的局限性。为了实现非接触、全场式、多场景监测,基于机器视觉的监测技术成为振动监测领域的关键方法之一。本文以机器视觉为主要方法,以一维振动特征的提取与识别为主要目的,针对两类纹理特征不同的测试对象提出了两种有效的振动监测方法。针对自然结构明晰、纹理特征丰富的目标物体,本文采用图像预处理相关算法提取像素级振动特征,并提出了一种用于分类、
目的:分析BOPPPS联合情景模拟法在儿科护理学教学中的应用效果。方法:选取149名护理在校生作为研究对象,随机分为对照组(n=74)和实验组(n=75)。对照组采用传统教学法,实验组应用BOPPPS联合情景模拟法。比较两组护生理论成绩和操作成绩,以及教学前后学习主动性。结果:实验组理论成绩和操作成绩均高于对照组,且教学后实验组学习主动性评分明显高于对照组,均P<0.05。结论:BOPPPS联合情