基于深度学习的图文交叉检索方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:jimmycjriyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个计算机、通信发展迅速的年代,人们接触到的文本、视频、音频,包括图像等多媒体信息越来越多。通过互联网,人们正在一步一步的实现全球多媒体信息的共享。用户对多媒体信息的查询也变得越来越普遍。各种新的应用需求也随之而来。跨媒体检索技术,指的不同模态之间可以相互交叉检索的检索方式,即通过某一种模态的实例检索出与之语义相关的其它模态的样本。跨模态检索到的结果与单模态相比,内容丰富,能将查询对象更加立体地呈现给用户。本文主要研究图像和文本两种模态间的交叉检索方法。通过深度学习模型提取数据集中图像和文本的特征表达,将二者融合后映射到高维子空间中。根据子空间中的样本距离大小,度量其相似度,完成检索。本文提出了多层次特征提取方法和双语义空间的构建方法。在特征提取阶段,提取出有利于融合的图像和文本特征。在特征融合阶段,对每种模态构建了真实语义空间和转换语义空间进行综合检索,有效的提高检索准确度。本文工作和研究成果主要包括以下两个方面:(1)本文针对图文检索问题中语义对齐的问题,改进了现有检索模型中的特征提取部分,提出了一种多层次关键语义信息提取方法。该检索方法主要由三个模块组成:第一模块在VGG网络和Text-CNN中加入空洞卷积得到图像和文本的多层次特征。第二模块是通过注意力机制和外积进行特征筛选与组合实现语义对齐。第三模块是将两个模态进行特征融合,完成检索。(2)本文提出了双语义空间检索模型。目前的特征融合网络,目标函数包括分类任务和融合任务。由于各个模态的特征空间需要在完成分类的同时,还要考虑其它模态的函数分布,因此会导致最终学习出来的特征空间出现精度损失和无法拟合函数分布的情况,影响跨模态检索结果。本文首先构建真实语义空间,即在识别单模态标签上具有很好的效果的完备语义空间。然后构建转换语义空间,转换语义空间是两种模态真实语义空间的桥梁,具有自身模态的语义和待检索模态的函数分布。在检索时,两个模态分别将该模态的转换空间特征和另一种模态的真实空间特征相比较,计算相似度,综合结果,完成检索。
其他文献
随着全球卫星导航系统GNSS(Global Navigation Satellite System)技术日益成熟,GNSS已成为室外定位的最佳选择,在测绘、航空、航海、交通、气象等诸多环境中广泛应用。但在室内环境中,由于信号的遮挡,存在GNSS不可用的问题,因此,在室内环境中如何进行有效的定位,是一个亟待解决的问题。不同于以往足部式穿戴微惯导设备或者手持智能手机进行定位导航,本课题聚焦于穿戴更为方
世纪之交的几次局部战争中,无人机体现出极高的军事价值,成为各国军方研究的热点之一。近年来,通信技术的进步以及人工智能的应用,促进了无人机集群技术的发展,使得未来无人机集群化、有人/无人协同作战成为可能,推动着战争模式的根本性转变。融合导弹与无人机特性而设计的小型作战用无人机,为现代低成本高收益的作战模式提供了一种有效手段。本文以小型无人机为研究对象,针对多无人机在协同打击过程中的协同到达问题进行研
目标检测作为图像理解和计算机视觉的一个分支,是大量视觉任务的必要前提,当前也是机器学习领域中的一个热门方向。目标检测被广泛应用于许多的领域上,例如道路交通车辆以及标识、安保系统中的检测、军事领域中目标的识别。针对不同的应用场景而言,目标检测核心思想都是要解决物体在背景中的精确定位。对于红外图像中的目标,检测目标并对其物体轨迹进行分析是实际需求中必须要解决的难点。由于红外目标本身的特征弱、颜色缺失,
学位
天基红外光学监视系统利用部署在多个轨道平台所组成的光学传感器星座,对弹道导弹、航天发射等重要事件进行实时探测、跟踪、识别以及预报。对国土安全可能存在重大威胁事件的即时发现,有助于快速反应及时决策,增强我国战略防御能力。在这种应用背景下,天基红外光学监视系统面临着多种类、多型号目标的威胁考验。所以天基光学监视系统采用的探测体制和其中涉及的信息处理技术对系统效能具有决定性影响。天基红外光学监视系统星座
虽然当前基于图像的三维重建已经取得了较大的成功,但是有一类物体表面的重建效果仍然不理想,这类表面在现实场景中非常常见,主要包括镜面物体(比如玻璃、水面等)和弱纹理物体(比如白墙、瓷砖地面等)的表面。在传统的三维重建框架中,该类表面在稠密点云重建过程后会出现点云缺失的情况,造成没有足够的点云支撑进行表面重建,所以称之为弱支撑表面。本文主要针对含此类表面中平面形状的场景(即“弱支撑平面”)的三维重建问
移动机器人同步定位与建图(Simultaneous Localization and Mapping,SLAM)方法是用于机器人环境感知和导航的主流建图方法。传统的视觉SLAM方法中RGB-D信息非常重要,系统可以从RBG-D相机中获取颜色和深度等数据,其中,在获取深度数据的过程中会受到距离、光照等因素的限制,难以获得较好的建图效果。单目相机结构灵活、价格低廉,在实际中有较高的应用价值。如何使SL
受限于高中教学课时、安全风险及新冠疫情等因素,户外远距离开展研学活动以培养学生的地理实践力较为困难。本文以重庆南山风景区为研学活动基地,依托基地的研学资源,从研学设计思路、研学主题及目标设计入手,围绕“初识南山、探秘南山、造化南山”三大主题进行研学内容、研学任务、活动实施及评价的系统设计。该设计方案有利于提高学生的地理调查与考察能力,增强学生地理实践力。
近年来5G技术发展成熟,移动设备中相机配置越来越高,人们更愿意拍摄视频上传到网络上,互联网上视频数量持续急速增长,因此迫切需要高效的视频处理方法来满足海量视频处理的需求。视频分类技术是根据视频中内容自动判断视频所属类别的技术,是视频处理领域的重要组成部分,是计算机视觉领域的基础研究课题,对视频分类技术进行研究是必要的,同时视频分类技术也可以被广泛应用到生活中的各个领域,所以对视频分类任务的研究正在