基于视觉注意力机制的图像描述研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:shengwei05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务就是给定计算机一张图像,让计算机自动地生成一句符合图像内容的描述语句。图像描述所用的技术包括计算机视觉与自然语言处理,这是人工智能的两个主要研究领域。图像描述任务首先让计算机识别图像中的目标、理解目标间的属性、发现各目标物体之间的关系,甚至一些抽象的概念,然后再通过解码器将这些图像目标和相互间关系转化为语义信息向外输出,即是生成符合图像内容并且语法正确的描述语句。该任务在盲人视障、儿童早教、人机交互、游客导航等多方面有着不可估量的应用前景。本文在编码器和解码器的两方面对模型进行改进,利用更高效的特征提取网络和对解码器的注意力模型进行改进,使得图像描述模型能生成更准确、具体的描述语句。本文的主要研究内容如下:(1)对解码器进行改进,提出一种改进的三层LSTM网络的图像描述生成模型。从模型总体框架来看,模型在编码器阶段使用Res Net-101网络提取图像特征,在解码器阶段使用改进的三层LSTM网络模型对提取到的图像特征进行解码,生成描述句子。具体地说,提出的解码器包括三层LSTM网络,其中每两层LSTM网络间使用空间注意力模型进行连接,以增强注意力机制的效果,对三层LSTM网络的结构进行设计,分别是第一层注意力LSTM、中间层注意力LSTM、顶层语言LSTM。在MS-COCO数据集上的评价指标对比结果表明,本文提出的基于改进的三层LSTM网络的图像描述生成模型能合理利用特征信息,能生成更准确、具体的描述语句。(2)对编码器进行改进,提出采用Faster R-CNN网络替换Res Net-101网络用来获取图像特征信息。具体地说,模型在编码器阶段使用Faster R-CNN网络提取图像显著区域的图像视觉特征,这样做可以增强模型对图像中目标的识别能力,在解码器阶段使用改进的三层LSTM网络模型。同时针对使用交叉熵损失函数对模型进行训练时存在的曝光偏差等问题,提出使用一种自批判序列训练的强化学习优化方法,通过策略梯度优化来解决训练和测试之间的曝光偏差等问题。在MS-COCO数据集上的评价指标对比结果表明,本文提出的基于Faster R-CNN网络和强化学习的图像描述生成模型能提取到更丰富的图像特征信息,能生成更加符合图像内容的描述语句。(3)为了评估本文所提出的两种图像描述生成模型的性能,在MS-COCO公开数据集、Flickr30K数据集上分别进行了实验和使用常用的评价指标对模型进行评估。同时为了与其他流行的图像描述生成模型对比,我们进行了可视化实验分析。评价指标和可视化对比结果表明,本文提出的基于改进的三层LSTM网络的图像描述生成模型和基于Faster R-CNN网络和强化学习的图像描述生成模型能够更有效地提取图像特征,并对图像特征和语义特征进行全面的解码,提高了生成描述语句的准确性。
其他文献
2021年作为“十四五”规划的开局之年,也是电力企业供给侧改革和售电侧改革的重要一年。回顾整个“十三五”期间的电企发展,节约环保、高效可靠的现代电力工业体系正在形成,但电力煤炭价格近几年一直处于相对高位运行,且暂无下调趋势,煤电联动机制在近期取消。这些都对发电企业的成本产生了较大影响,在这样的大环境下,电力企业如何在逆境中优化自身的成本控制成为重中之重。本文在对A自备热电厂实地调研获取相关资料的基
学位
2020年我国虽然已经实现了全面脱贫,农村教育发展取得了一定成效,但是增强农村学生健康体质仍然是农村教育工作的重点。和其他国家相比,我国对学生的营养改善政策实施的时间较晚,一直到2011年才正式以特困地区为试点开展农村义务教育学生营养改善计划(以下简称“营养改善计划”)。绩效评价是用于判断财政资金绩效的工具和方法,国家对营养改善计划的投入逐年增加,营养改善计划项目作为公共产品,开展绩效评价确有必要
学位
党的十九大报告明确提出,坚决打好防范化解重大风险攻坚战,内部控制作为防范风险的重要手段,是国家治理现代化的坚实基础与有力支撑。近年来,在利率市场化带动下,我国商业银行不断推出各类金融产品以拓宽盈利来源,纸原油产品应运而生。纸原油产品与国际金融市场的原油期货合约挂钩,产品发展道路并不完善,风险隐患较多,极易受到市场波动影响。2018年,中国银行推出纸原油产品——“原油宝”。2020年4月21日凌晨,
学位
随着人类对陆地表层,海洋资源,甚至地外星球的探索,在广阔的空间上识别不同的目标变得越来越重要。而由于自然界环境复杂多变的特性,无论是对陆地表层,还是对海洋资源的探测,都需要大量的仪器和人力资源。因此,越来越多的科学家们采用了高光谱遥感技术,利用具有高空间分辨率和高光谱分辨率的高光谱图像来分析和识别自然界中的不同的物体。而高光谱在成像时容易受到外部环境的影响,复杂多变的成像环境时常会导致高光谱图像质
学位
随着信息技术的迅猛发展,数据量日益增长,数据的维数越来越高,规模越来越庞大,结构也越来越复杂。如何处理多源且多维的数据成为了数据挖掘领域的一个重大挑战。子空间聚类是对高维数据进行聚类分析的有效途径,其主要思想是将每一个数据类映射到对应的低维子空间以降低冗余信息对聚类结果的影响,从而获得更好的聚类性能。近年来,越来越多子空间聚类算法被提出,如何获取样本的局部和全局信息是子空间聚类的关键,目前仍面临较
学位
在国家实行《“健康中国2030”规划纲要》的背景下,医院迁建工程作为民生工程重点项目,是全面推进健康中国建设的重中之重,是关系国计民生的事业。作为承担公益性医疗机构的公立医院,近年来为顺应趋势,不断加大医院内部软件和硬件设施的投资力度,医院迁建扩容进入到一个新阶段。当前,我国开始出现公立医院在医院迁建工程中通过项目融资租赁拓宽融资渠道,极大缓解了单靠财政资金投入的问题;同时医院通过融物的形式,也降
学位
“积极发展混合所有制经济”这一理念自十八届三中全会提出以来得到了地方政府及国有企业的积极响应,混改形式以国有企业引入战略投资者方式最为常见,当中有部分企业引入战略投资者成为该企业的大股东并拥有企业实际控制权和决策权。自我国资本市场形成以来,大股东及其关联方对控股公司及其旗下子公司进行非经营性资金占用情况时有发生,占用方式具有复杂性和多样性,一些方式更因隐蔽性而难以发现,混改的初衷是改变国有企业现状
学位
随着5G移动通信技术的普及,物联网设备在得到充分发展的同时,也对精准的室内位置服务提出了新的要求。为了保持室内定位模型的精度,位置服务提供商需要频繁地向设备用户索取位置数据进行定位模型更新。然而,位置数据与设备用户的行为习惯息息相关。如果设备用户的位置数据在传输的过程中被恶意窃取,这不但会造成设备用户的隐私泄露,也会让设备用户参与位置服务更新的意愿降低。随着边缘计算的发展,联邦学习有希望成为室内定
学位
市值管理是指上市企业以市值为信号,根据市值变化采取相应的策略,使企业的自身价值能够在资本市场中得到真实的体现。市值管理概念最早诞生于2005年股权分置改革开始后,自此以后,市值管理成为社会关注的热点。市值管理第一次在制度层面被认可的标志,是2014年5月国务院发布《关于进一步促进资本市场健康发展的若干意见》。随着内资与外资不断流入资本市场,市值管理的理论实践均发展快速,同时也产生了多种多样的市值管
学位
随着脉冲神经网络训练学习算法的不断发展,其应用领域也不断扩张。同时,由于脉冲神经网络模型的规模不断扩大,训练学习算法的计算量愈发庞大,脉冲神经网络模型的训练愈发缓慢,进而导致脉冲神经网络模型研究与验证周期过长,相关应用研发时间跨度过大。针对上述问题,设计一种有效的并行训练方法是有效提升训练效率的关键。为此,本文提出了基于STDP的SNN子网络并行训练方法以及基于STDP的SNN多批次归约并行训练方
学位