基于双重位置关系和自适应注意力的图像描述方法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:liongliong552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是使计算机自动输出关于图像内容的自然语言,即将自然图像转换为文字形式。基于编码器-解码器的网络结构是目前最常见的图像描述方法,自然图像作为编码器的输入,提取图像特征向量,将其与标注的序列编码共同输入解码器,建立图像与序列之间的联系,但是当前的研究仍然存在不足。比如在图像特征提取过程中,由于输入编码器的向量被展平,从而丢失了对象之间的位置关系。除此以外,在视觉特征和序列特征对应方面也存在不足。本文使用Transformer作为基本模型,对图像特征和序列方面存在的问题开展研究,提升了图像描述生成效果。(1)针对输入编码器的图像特征向量被展平,从而丢失了空间关系的问题,本文提出了双重位置注意力函数。本文将对象之间的空间关系分别表示为绝对位置和相对位置,相对位置用坐标形式表示,用来表示不同对象之间的相对关系,绝对位置用正余弦函数来编码,用来区分视觉特征相同的对象。针对文本之间的长距离依赖的缺点,使用一层LSTM编码时间信息和序列信息。实验结果表明,加入双重位置关系后明显提升了模型的性能,生成的句子也包含了更多的细粒度信息。(2)为了使模型在生成单词时关注的侧重点更符合人类视觉,本文提出了一个自适应注意力应用于编码器中。首先使用Bert预训练模型编码序列,得到语言信息,编码器最后一层的输出作为视觉信息,然后将语言信息和视觉信息拼接,作为第一层解码器的输入,经过自适应注意力函数,将语言信息和视觉信息充分融合,从而使模型在生成单词时有效地关注图像信息或序列信息。本文针对图像描述问题现有的不足,设计并实现一个基于双重位置关系和自适应注意力的模型。模型基于深度学习算法,融合空间位置关系和自适应注意力机制,并在MSCOCO数据集上对该模型进行了实验验证,定量结果和可视化结果均表现出较好的性能,生成的描述可以更准确、更全面地表达图像信息,并得到了更多的细粒度信息,表明了本文所提创新点的有效性。
其他文献
切口疝是腹部手术之后,由于创口感染、恢复不佳或运动过量等因素导致手术切口的下方形成腹壁缺损,该缺损一旦形成无法自愈,且具有日益扩大的趋势,严重影响患者的生活质量。目前,通过外科手术在腹壁缺损处植入补片,以承受原腹壁缺损区域与周围组织之间张力的手术方法已成为切口疝标准的治疗方案。基于体内异物残留最小化的发展趋势,疝修复补片逐渐轻量化。但因腹内压或剧烈运动,体内的补片可能会产生移位、皱缩和卷曲等情况,
学位
中国农作物种类繁多,农作物产量和质量影响着经济发展和农民收入,农业健康稳定发展一直是国家追求的目标。因此快速准确识别农作物病害种类并及时给予准确防治至关重要。传统农作物病害图像的识别主要靠少部分农业专家从病害图像的颜色和形状进行识别,这样既费力效率又低,也比较主观,容易导致误判错过最佳治疗时间。而现有农作物病害图像识别研究方法主要是从图像背景分割、机器学习相结合进行病害识别,但图像背景分割难度大、
学位
在城市化、工业化背景下的“陌生人”社会,专业化、组织化的现代慈善事业凭借着信息优势得以蓬勃发展。互联网、智能手机等技术的不断进步在日益丰富慈善参与方式和渠道。网络募捐的“指尖公益”凭借门槛低、操作便捷、募款高效等特性获得越来越高的社会参与度和关注度。与网络募捐兴起相伴的是骗捐、诈捐事件层出不穷,一些网络平台遭遇认同危机。追根溯源,无一不是网络募捐平台多方参与主体之间信息分布不对称的结果。如何解决网
学位
针对现有深度网络修复大面积随机缺失区域时存在修复结构不合理、生成细节模糊等缺陷,本文提出两种改进的修复模型:基于并行卷积的双阶段对抗网络图像修复与基于多尺度信息融合的单阶段对抗网络图像修复。论文主要贡献如下:针对现有算法在修复大面积规则掩码时出现的结构信息不连续和语义信息缺失的问题,提出一种基于并行卷积的两阶段修复模型,该模型由并行卷积组成的粗修复网络和融合残差连接与注意机制的细修复网络组成。首先
学位
下肢静脉曲张产生的主要因素是由于静脉壁薄弱、瓣膜功能障碍和静脉内气压的不断增加,进而影响血液回流,从而导致静脉延长、产生迂曲、扩张等的临床症状。静脉曲张的最主要治疗方法是外科手术,由于通过外科手术可以根治静脉曲张,因而术前检查和个性化治疗方案的制定在静脉曲张的诊治过程中显得尤为重要。目前在临床上主要采用彩色多普勒超声、下肢数字减影血管造影(Digital Subtraction Angiograp
学位
上世纪70年代后期,英国生物化学家Frederick Sanger研发了第一代基因组测序技术,开启了基因组学新纪元,为探索生命的本质奠定了基础。经过科研人员的不断完善,测序技术历经三次迭代,至今仍然不能直接测得完整的基因图谱,只能先将完整的基因截取为不同长度的read(碎片),随后测得read序列,通过拼接技术将这些read拼接为完整的基因组图谱。完整的基因组图谱在分析遗传变异中发挥着重要的作用,
学位
图像分类技术是深度学习领域的一项重点研究方向。本文将深度神经网络应用于对医学图像的鉴别与诊断,研究内容主要是在传统卷积神经网络(Convolutional NeuralNetwork,CNN)的基础上做出改进,提高网络的效果。本文在重楼显微数据集和溃疡性结肠炎数据集上进行了具体研究。在对重楼显微图像的鉴别中,本文在基于传统CNN模型上加上了不同的注意力模块,其原理是可以模仿人眼观察物体一样在扫描整
学位
说唱音乐充分表达了作者对生活、对社会的态度,说唱音乐的传播可以帮助人们提高自我意识,弘扬中华民族的传统文化。然而中文文法和句式结构的复杂性使得中文说唱歌词领域的研究进展十分困难。说唱歌词生成是文本自动生成任务的特例,基于主题的说唱歌词生成技术不仅要求生成的说唱歌词满足文本的流畅性、可读性和内容性,更限制文本内容必须是主题相关性的。这对文本生成模型提出了巨大的挑战。本文首先明确了当今说唱歌词生成算法
学位
知识图谱(Knowledge Graph,KG)以强大的语义处理能力与开放互联能力成为人工智能领域研究的热点。然而,KG中的知识并不完善,部分实体之间缺少链接,导致KG的使用受到极大的限制。KG的链接预测任务旨在为实体间缺失的链接进行预测,其中,根据KG中的知识计算实体间存在链接的可能性,预测缺失的实体链接,是KG链接预测的核心任务之一,也是本文研究的链接预测问题。KG中的实体之间存在着相互依赖关
学位
航班延误是困扰世界各国的民航业难题。中国民航业在经过了一段时间的跨越式发展后,现如今仍存在民航管理体系不够健全、空管体制有待优化、市场体制不够完善等制约民航业整体运行效率的问题。另一方面,航空公司时刻安排不甚合理、延误信息发布不够及时,加之公民素质良莠不齐、航空知识宣传普及仍有待加强等因素,决定航班延误问题不仅很难在短期内有效解决,而且还需防范进一步恶化的可能。本文以航空公司航班延误问题作为研究案
学位