基于视觉注意的图像描述生成研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：colinqq1

【摘要】

：

图像描述生成是最近几年来十分热门的研究方向,是一个多模态的问题,包含了计算机视觉和自然语言处理两大领域。本文通过模拟人类的注意力机制,研究提取视觉显著特征的方法,最

【作者】

：

孙振

【出处】

：

苏州大学

【发表日期】

：

2019年01期

【关键词】

：

图像描述生成视觉注意机制策略梯度卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像描述生成是最近几年来十分热门的研究方向,是一个多模态的问题,包含了计算机视觉和自然语言处理两大领域。本文通过模拟人类的注意力机制,研究提取视觉显著特征的方法,最后借助编解码框架生成图像句子描述。本文首先研究多解码器融合的注意力图像描述生成模型,然后以此为基础,利用策略梯度对模型进行优化、利用区分性引导在优化后的模型上研究相似图像内容的不同句子描述。在MSCOCO图像描述数据集上的实验证明了论文研究的图像描述方法的性能。本文主要研究内容如下:1)针对现有图像描述方法大多难以充分利用空间和目标特征,导致图像描述不足以反映图像丰富内容的问题,论文研究空间注意力和目标注意力提取显著特征,并将其分别引入到多层解码器融合架构,提出基于多解码器融合的注意力图像描述生成方法。多层解码器由全局解码层、目标解码层和空间解码层三层组成,并形成层层递进的解码结构。对于目标注意力显著特征是将空间整体特征、目标特征以及全局解码器隐藏状态信息输入到目标注意力层生成的,然后将其输入到目标解码器获得局部目标特征解码;对于空间注意力显著特征是将目标整体特征、空间特征、目标注意力特征以及目标解码器隐藏状态信息输入到空间注意力层生成的,然后将其输入到空间解码器获得局部空间特征解码;最终将多层解码器的隐藏状态融合后用于生成图像描述。实验结果表明,这种方法能有效利用空间和目标特征,显著提高了模型的性能。2)针对现有图像描述方法在训练阶段利用真实单词,而在测试阶段使用预测单词引导后续单词生成带来的曝光偏差问题,论文在已研究的多解码器融合的注意力图像描述模型基础上,提出基于策略梯度优化的注意力图像描述生成方法。该方法在多层解码器融合注意力图像描述模型上,提出的策略梯度算法以句子层次的评价方法对蒙特卡罗采样生成句子描述的评价作为奖赏,同时对贪婪搜索生成句子描述的评价作为基线,将基线与奖赏的差值构成梯度,梯度为正给予蒙特卡罗采样正向激励,否则抑制采样,实现句子描述生成模型的优化。实验结果表明,该方法解决了曝光偏差,进一步提高了模型的性能,生成了更加自然,接近于人类的图像描述。3)针对现有的图像描述生成方法对于相似却不同的图像给出相同图像描述的问题,论文在策略梯度优化的注意力图像描述生成模型基础上,研究图像查询模型获得区分性奖赏,提出了基于区分性引导的注意力图像描述生成方法。该方法的区分性损失是通过视觉语义嵌入的方式预训练一个图像描述到图像查询模型,并在策略梯度算法下使用查询模型对蒙特卡罗采样生成的图像描述打分获得。总的区分性奖赏通过加权区分性损失与蒙特卡罗采样句子评价的奖赏求和生成。实验结果表明,该方法进一步提升了模型的性能,同时生成的图像描述更加具有区分性。

其他文献

具有陷波特性的分形超宽带微带天线的研究与设计

超宽带(Ultra-wide band,UWB)通信系统以其高速率、低功耗、干扰小、分辨率高等优点在无线通信领域得到了快速发展。而天线作为辐射和接收电磁波的换能器件,是UWB通信系统中

学位

超宽带树状分形谢尔平斯基陷波

贡山县保障性住房租赁综合业务系统的研究与分析

目前贡山县保障性住房租赁申请审批管理是建立在保障性住房租赁的三级审核、两级公示基础上的,目前存在申请审批效率不高、合同管理和租金管理不到位、财政补贴监管不力等问

学位

住房租赁资格审查数据分析功能分析统一建模语言

蒙特卡罗方法在乏燃料运输容器屏蔽中的应用

本文主要应用蒙特卡罗方法进行了屏蔽计算的研究。在开展蒙特卡罗方法的实际应用中,对大亚湾第一炉换料乏燃料运输容器进行了屏蔽计算。源项应用ORIGEN-Ⅱ程序的计算结果,应

期刊

乏燃料屏蔽计算蒙特卡罗方法MCNP程序

桃核承气汤结合甘露醇治疗高血压性脑出血急性期脑水肿的临床研究

目的评价桃核承气汤与甘露醇联合治疗高血压性脑出血急性期脑水肿的临床疗效。方法采用回顾性分析的方法,选取86例高血压性脑出血病人,根据治疗方法的不同分为2组,试验组采用

期刊

高血压性脑出血脑水肿桃核承气汤甘露醇

初中单词音标拼读教学“对对法”的有效性研究

近十年来初中英语教材不断改版,加上新高考的改革,英语单词越来越重要了,通常的词汇教学一般采用的是由音到形再到义的一个顺序。音是学生接触一个词的最初印象,如果读不出音就记不住形,因此,牢记一个单词首先就应该把音拼读准确。音标学习是学生发音、单词识记、句法等英语学习的基础以及必经之路,也是学生学好英语、对英语学科产生兴趣的根本保障。本研究立足于初中英语音标教学的方法以期给初中英语教师音标教学提供参考。

学位

初中英语音标教学“对对法”建构主义

河南省大学生可就业能力研究

大学生就业一直是党和国家关注的热点问题,自1999年高校扩招以来,毕业生人数逐年增加。由于高校毕业生众多,加上国内经济增速放缓、产业结构调整、总量就业压力和结构性矛盾

会议

大学生可就业能力社会支持心理资本

基于二维声子晶体实现声场调控及微粒操纵

最近新型声学人工结构的出现,可以对声场进行灵活的调控从而实现新颖的声学传播效应,如声子带隙、反常透射、声波导等。另一方面利用所调控的声场实现了对微粒的操控,由于其

学位

反常透射声子晶体板局域声场声辐射力操控

聚四氟乙烯中空纤维膜的制备及其性能

通过聚四氟乙烯(PTFE)分散树脂糊料挤出和拉伸烧结成型方法,制备了PTFE中空纤维膜,并采用孔径、空隙率、泡点、通量和SEM测试,探讨了拉伸和烧结工艺对膜结构与性能的影响.所

会议

聚四氟乙烯(PTFE)中空纤维膜结构与性能拉伸烧结

少年武侠小说与成长寓言——兼论葛冰少年武侠小说

少年武侠小说是近年来出现的一种新的少年小说样式，具有武侠小说和少年小说的特点。葛冰的少年武侠小说具有较强的代表性。本文拟从成人武侠小说的创作特点出发，以葛冰的作品为

期刊

少年武侠小说成长寓言侠义精神传递与解构叙事技巧

中国科学院文献情报系统创新服务实践探索

以中国科学院文献情报系统发展历程为契入点,总结近10年来创新服务的模式、转变方式与服务成效,结合研究所创新服务实践,阐明只有提高科研一线服务水平,形成小核心大网络模式

期刊

中国科学院文献情报创新服务情报分析群组平台科技监测

基于视觉注意的图像描述生成研究

与本文相关的学术论文