【摘 要】
:
图像-文本检索技术在日益丰富的数字世界中起到至关重要的作用,因此被学术界和工业界视为一项很重要的技术投入。本文结合现有注意力机制的优缺点和生成对抗网络中判别器的结构特点,设计了图像特征预测网络、堆叠交叉注意力模块及特征来源判别模块,提出基于堆叠交叉注意力及对抗学习的图像-文本检索算法。首先,本文改进传统方法需要学习得到共同空间的弊端,直接以图像特征空间为共同空间。此外,通过引入堆叠交叉注意力机制计
论文部分内容阅读
图像-文本检索技术在日益丰富的数字世界中起到至关重要的作用,因此被学术界和工业界视为一项很重要的技术投入。本文结合现有注意力机制的优缺点和生成对抗网络中判别器的结构特点,设计了图像特征预测网络、堆叠交叉注意力模块及特征来源判别模块,提出基于堆叠交叉注意力及对抗学习的图像-文本检索算法。首先,本文改进传统方法需要学习得到共同空间的弊端,直接以图像特征空间为共同空间。此外,通过引入堆叠交叉注意力机制计算局部图像和各个词汇间的细粒度相似度。本文分粗粒度、细粒度两个层次计算图像-文本相似度,优化文本预测图像特征过程且不增加过多计算复杂度,并改进了传统注意力机制简单穷举、预设步骤单次只能算一对局部图像和单个词汇的缺点。最后,本文设计特征来源辨别器,以对抗学习方式优化辨别器损失和生成器损失,其中生成器损失即跨媒体相似度损失,包含粗粒度(全局)和细粒度(局部)两部分。本文在主流跨媒体检索数据集MS-COCO和Flickr30K中实验检验注意力机制和对抗学习对图像-文本检索模型的作用并进行可视化分析。实验表明,堆叠交叉注意力具备良好的细粒度层次特征的匹配能力,而且能较大幅度地改善文本特征到图像特征的预测效果,进而提升图像-文本检索的准确程度。此外,实验表明对抗学习对检索模型的准确度也有小幅提升。
其他文献
研究目的:食管癌具有起病隐匿、恶性程度高、预后差、生存率低等特点,氧化应激与包括食管癌在内的多种肿瘤的发生发展有着密切关系,与氧化应激相关的基因有可能成为潜在抗肿瘤治疗的新靶点。红系衍生核因子相关因子-2(nuclear factor-erythroid 2-related factor 2,Nrf2)是细胞氧化应激反应中的关键因子,本研究旨在探讨Nrf2在食管鳞癌组织中的表达及其与临床分期的关系
高尿酸血症是由于人体内嘌呤代谢紊乱,继而导致血液中尿酸含量超出正常水平的代谢性疾病。高血尿酸常会导致痛风的发作,以及尿酸盐肾病、尿酸性尿路结石等疾病的发生,严重影
随着大数据及其应用的快速发展,应用大数据挖掘和分析可以发现许多敏感信息,如:健康数据和医疗保健等用户隐私信息,因此大数据安全和隐私受到了人们的重点关注,而身份认证协议是其重要的组成部分。目前,许多身份认证协议重点关注认证性和机密性,而对隐私性关注不多。故本文对面向大数据的保留用户隐私的身份认证协议进行了研究。主要工作如下:1)提出了一个面向大数据的保留用户隐私的身份认证协议UPPIABD(User
根据是否会随着时间变化,数据可分为静态数据和时演数据。传统的聚类分析主要处理静态数据,而在实际应用中,诸如股票数据、社交媒体数据等都是会随着时间变化的时演数据。与静态数据不同,在处理时演数据时需要对每个时间步骤的数据都进行聚类。因此,所构造的聚类算法不仅要反映长期聚类趋势,而且对短期变化具有鲁棒性和一定的光滑性。目前,构造时演数据聚类的一种重要方法是通过时间平滑度对传统静态聚类方法的代价函数增加惩
当今社会属于信息时代,冤假错案的发生会引发社会的广泛关注。刑事错案的发生虽然有一定的时代背景和刑事技术侦查水平的局限性,但侦查人员非法取证行为则极可能是刑事错案的
本论文从作为政治家的胜海舟(1823年-1899年)这一视角出发,以其青年期到去世这一期间为对象进行了通时性的考察,对各个阶段海舟的中国认识、幕末和明治时期分别与政府有着怎样的关联、以及其主张怎样的对中政策等问题进行了详细探讨。胜海舟作为活跃在幕末至明治这一转换期的政治家,其中国认识值得深入探究。本文对海舟作为政治家的这一侧面进行了重新审视,此外,大多数先行研究都认为海舟的中国认识是一贯不变的,但
道情戏在发展初期是以歌舞形式来叙述道教的故事与宗旨的,在漫长的历史演变中,不断革新发展,已具备成熟完善的表演艺术特征,其独特性和审美性也丰富了戏曲艺术的发展,目前道情艺术遍布20多个省市,在中国这片偌大的土地上呈良好发展态势。道情戏作为宗教文化和戏曲艺术结合的成功典范,对于研究中国各个地区的地理差异、风俗人情、语言风格、美学特征都有极其重要的价值意义。山东道情戏艺术品种的形成,与山东得天独厚的地理
本文是对《港澳援建项目图册大纲》(简称《图册大纲》)的汉英翻译实践报告,作者在绵阳市外办实习时,受该办委托翻译了本项目。在2008年汶川大地震中,绵阳损失惨重。在过去的10年里,在世界各地的支持下,绵阳灾后重建取得了巨大成就。《图册大纲》主要介绍了港澳地区在绵阳的援建工程,翻译《图册大纲》的目的是向世界展示灾区所取得的巨大成就,也向世界展示绵阳人民和港澳门人民之间的友谊。《图册大纲》共15346字
静电纺丝法所制备的纳米纤维膜由于其具备独特的纳米结构、高比表面积及多孔结构,在空气净化、多相催化、组织支架、电池电极等相关领域存在着广泛的应用。但是由于静电纺丝
近年来,计算机视觉的研究越来越受到重视,基于视频序列的动作识别是计算机视觉研究中的重要方向,其主要目的是应用计算机系统来自动分析检测视频序列中人体的动作行为。虽然人体动作识别的研究已经取得了巨大进步,但是如何快速有效地从视频序列中提取出动作特征,并对特征信息进行准确分类仍然是计算机视觉的重要研究课题。人脑作为一个完美的识别系统,能有效地感知视觉信息,并准确地识别人体动作。模拟大脑视觉皮层信息加工机