基于图卷积网络和注意力机制的图像描述算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:cqwcr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是一项图文融合的技术,目的是用文字对图像内容进行概括性描述。在图像检索、机器人问答、儿童教育等领域具有广阔的应用前景。目前图像描述生成的描述语句的准确性和生动性有待提高,本文基于图卷积神经网络和注意力机制对图像描述任务进行研究分析,主要工作如下:第一,提出基于Dense Net和自适应注意力机制的图像描述模型D-ada。考虑到图像描述很难正确提取图像的全局特征,同时大多数注意力机制方法强制每个单词对应图像区域,忽略了描述文本中“the”等词无法和图像区域一一对应的现象。本文提出具有视觉哨兵的自适应注意力机制模型:在编码阶段,引入密集连接网络来提取图像的全局特征,与此同时,在每个时间轴上,通过自适应注意力机制设置哨兵门决定是否利用图像特征信息用于单词生成;在解码阶段,使用长短时记忆网络作为图像描述任务的语言生成模块。论文中使用Flickr30k和COCO数据集对自适应注意模型进行性能测试,通过实验验证表明,本文提出的模型在BLEU和METEOR评估标准上有明显提升。第二,提出了一种基于图卷积网络的图像描述模型GCN-ada。针对编码-解码的图像描述框架中没有充分研究视觉关系利用问题,我们推理这种视觉关系来丰富视觉语义,在语义和空间级别上对关系进行建模,通过视觉连接增强图像编码器来进一步提高图像描述生成的句子质量。GCN-ada模型在D-ada模型基础之上进行改进,首先利用密集连接网络提取一组显著图像区域,并在检测到的区域上建立有向边的语义图;然后利用图卷积网络丰富结构化语义图和空间图中具有视觉关系的区域表示;最后将学习到的每种关系的关系感知区域表示输入到具有注意力机制的LSTM解码器中生成句子。在Flickr30k、COCO图像描述数据集上进行的实验验证了本文提出的使用视觉关系来丰富区域级表示最终增强了图像描述的生成的语句质量。本文首先设计了一种基于自适应注意力机制模型D-ada用于改善描述文本与图像对应问题,提高模型描述效果。接着提出在D-ada模型中加入图卷积网络来探索图像描述对象之间的联系,增强图像中对象的细化描述。
其他文献
不同于4G网络,5G移动通信网络能够激发新的商业模式和垂直行业/领域,从而促进下一代移动通信网络下全连接社会愿景的实现。5G需要高度差异化的网络服务,为租户在同一物理基础设施上提供多个逻辑独立的虚拟网络,从而支持多租户共享高质量的网络服务,这种新的网络框架概念就是网络切片。网络切片利用SDN和NFV技术为新的商业模式和垂直行业/领域的需求提供灵活和可扩展的支持。在网络切片中,不同的网络和服务功能相
随着物联网技术的快速发展,越来越多的领域与物联网技术相结合,进而朝着数字化、智能化的方向发展。其中,工业物联网这一领域近年来发展尤为迅猛,但是传统的网络架构显然不能满足工业物联网中大量传感器节点的管理需求,而软件定义网络这一新型网络架构提供了新的可能。本论文将软件定义网络与工业物联网相结合,使用软件定义网络控制器和虚拟交换机,构建适合工业物联网的网络环境,实现了传输和计算过程可配置的动态传算框架。
由于受传统成像系统中硬件本身、技术水平和外部各种环境因素的影响,现实中生成的图像会不可避免的会损失一些原来的细节纹理信息。为了对这类问题进行有效的解决,图像超分辨率技术被广泛的研究,该技术能对质量较差的图像进行恢复重建,具有成本低、普适性高等优点。针对图像超分辨率技术在医学图像重建方面的应用,虽然现阶段基于深度学习的方法能在一定程度上提高图像分辨率,但其计算量大的问题一直没有得到有效的解决。其次大
股市素来被誉为“宏观经济的晴雨表,国民财富的聚宝盆”,国家的经济发展与股市密切相关。从微观方面说,股市是广大投资者重要投资手段,具有“高风险、高收益”的特征,因此也
水下声纳图像是水下信息的主要来源之一,是现今水下目标识别的主要手段。水下声纳图像分类的研究是海洋探索与利用的前提,因此水下声纳图像分类的研究在海洋探索和海洋装备发展领域都有重要的研究意义。提高水下声纳图像的分类精度,以及更好地适应水下数据不均衡的情况,都是水下声纳图像分类研究的要点。传统水下声纳图像因为其成像原理不与光学图像相同,同时加之水下噪声和机械噪声的影响,成像质量较差,影响了水下声纳图像的
无线传感器网络节点监测环境、收集数据、处理数据,通过自组织网络形式将数据传回平台以供分析使用,应用价值非常高。但是网络中节点独立,无能量来源,这就极大限制了无线传感器网络的使用周期和应用场合,导致能耗问题成为无线传感器网络实际应用和广泛推广的短板,高效节能成为无线传感器网络路由算法设计的关键。蚁群算法能够为无线传感器网络高效快速的寻找到一条最优路径。通过在蚁群算法中的概率选择公式引入节点剩余能量,
上地幔410-km和660-km间断面的形态特征,对探测地幔过渡带内温度和化学成分的横向变化,以及板片俯冲深度和地幔对流模式等具有重要意义。阿留申-阿拉斯加俯冲带和汤加-斐济俯冲带分别位于环太平洋俯冲带的最北端和西南部,是研究俯冲板块前缘与660-km间断面相互作用的天然实验室。本文利用国家测震台网固定台站和“中国地震科学台阵探测”项目在南北地震带北段布设的流动台阵记录到的极远震波形资料,通过对大
机场始发航班与过站航班都要接受各种不同的地面服务,这些服务由相应的保障车辆完成,除冰是飞机起飞前的最后一项地面服务。除冰资源利用紧张的情况常常会出现在极端天气条件
随着云计算、大数据等技术的不断兴起,互联网应用将以前所未有的态势涌入人们生活的方方面面。光纤通信网作为通信系统中最主要的核心网络,承载了互联网和无线移动网络的大部分流量,在通信中发挥着至关重要的作用。光纤通信系统具有带宽大、抗干扰性强、低时延等显著特点,在未来将持续发挥其特征优势,引领现代通信进入崭新的阶段。因此,对光通信系统及其关键传输技术展开深入研究具有十分重要的意义。本文对光通信系统中二维和
随着互联网和移动端的发展,越来越多的人在网络上分享信息并写下自己的一些评论,包括电影评论、购物评论、新闻评论等等。传统情感分析只能给出整句的情感倾向。随着注意力机制的提出,深度学习在自然语言处理领域得到了迅速的发展,注意力机制可以捕捉上下文的信息,能更好的处理语义层次的问题。细粒度情感分析的任务由评价对象的抽取和评价对象的情感判断两个过程组成。本文尝试采取基于注意力机制的深度神经网络模型来进行细粒