基于注意力机制的图像描述生成算法研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户：yayayaoo

【摘要】

：

随着互联网技术的快速发展,人与人之间的通信方式从形式单一的语音文本,扩展到内容丰富多样的视频图像上来,视频图像的大小及数量急剧增加。随着智能设备进入千家万户,人机交

【作者】

：

陈龙杰

【出处】

：

陕西师范大学

【发表日期】

：

2019年01期

【关键词】

：

图像描述注意力机制自然语言生成长短期记忆网络深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的快速发展,人与人之间的通信方式从形式单一的语音文本,扩展到内容丰富多样的视频图像上来,视频图像的大小及数量急剧增加。随着智能设备进入千家万户,人机交互的需求日益增加,图像及视频内容的自动检索及理解,已经成为目前人工智能和机器学习领域的研究热点之一。图像描述生成将图像处理任务和自然语言生成任务结合起来,通过建立图像特征提取模型和相对应的语言模型,可以自动识别图像内容,并将图像转换为自然语言信息。通过使用计算机,图像描述生成能够快速并高效地处理海量图像数据,其在与人机交互有关的各个领域有着广泛的应用前景。图像描述生成在计算机视觉及自然语言处理的基础上,通过计算机视觉提取图像特征,使用自然语言处理建立语言模型,最终将图像与文字联系在一起。与传统的方法相比,使用深度学习的图像描述算法,通过自动地从海量的图像及文本数据中学习图像和文本的特征,将图像特征和文本特征一一对应起来,可以高效完成图像描述生成任务。目前,图像描述任务的研究虽然取得了一些成果,然而,在生成的描述文本方面,存在着内容不丰富,对图像细节的描写不够精确完整等缺点。针对以上存在的问题,本文从图像特征和语言模型两个方面出发,构建基于多注意力的图像描述生成算法。首先使用目标检测模型提取图像粗粒度和细粒度的特征,获得更为丰富的图像语义及细节信息,增加了所提取图像特征的信息量。其次,在图像描述的语言模型中,加入多注意力机制来充分利用图像在不同粒度上的特征。最后,构建了多层次的语言模型,通过在语言模型中引入残差连接机制,使用高速通路在不同层之间传输数据,提高了模型的运算效率与本文算法最终的图像描述效果。结合以上内容,本文算法在图像整体语义表示的基础上,增加了图像的细节表达能力。经过实验对比分析,本文提出的算法,有效提升了图像描述生成任务的效果和准确率。本文研究工作主要包括以下几点:(1)针对传统图像描述模型对图像细节把握不足的问题,提出了一种多层次的图像特征提取方法。该方法利用目标检测模型中不同的残差层,将图像转化为大小不同的多维向量。根据残差层位置的不同,本文将以上从残差层中得到的多维向量分别作为图像的粗粒度特征和细粒度特征。最终,通过以上方法,提高了图像特征的丰富程度;(2)针对传统图像描述模型对图像特征使用不足的问题,本文使用长短时记忆网络建立语言模型,构建与图像特征一一对应的注意力模块,最终建立起了兼顾图像整体语义和图像细节的图像描述生成算法。通过将图像注意力机制与语言生成模型相结合,共同指导图像描述文本的生成。(3)针对深度神经网络存在的模型复杂度高,以及由此产生的梯度消失问题,本文在语言模型中引入了残差连接机制,通过使用高速通路在不同层之间传输数据,提升了模型图像描述的最终效果。

其他文献

螺旋结构气体轴承流场特性与接触行为研究

精密螺旋槽气体轴承和涡旋压缩机等干式气体机械主要通过高速运转过程中的气体动压效应来实现正常稳定工作:精密螺旋槽气体轴承在高转速下会产生微间隙气体动压润滑,而转速较

学位

螺旋结构气体轴承动压效应瞬态流场接触行为

基于采样数据的多智能体系统一致性问题研究

近年来,随着计算机和通信技术的飞速发展,多智能体系统的分布式协调控制在无线传感器网络,自动化高速公路,无人机编队控制等诸多领域得到了广泛应用,受到了国内外研究学者的

学位

多智能体系统有向拓扑采样控制事件触发控制包含控制芝诺现象切换系统

氧空位铁钴复合催化剂活化过硫酸盐降解双酚A的机理研究

铁钴复合金属催化剂基于不同金属离子之间的协同作用,可强化对过硫酸盐的催化活性。在催化剂中引入氧空位,可以促进不同金属价态间的氧化还原循环,提高催化效率。层状双金属

学位

氧空位过硫酸盐铁钴催化剂双酚A

陆九渊援佛入儒心理学特征辨析

陆九渊是“心学”体系的创始人,其“心学”思想中体现出了明显的禅宗痕迹,但不将其列入佛教的行列是因为他吸收了禅宗的认识方式,目的是为了发扬符合儒家准则的伦理道德思想。本文从心理学和思想性两个方面入手,对陆九渊援佛入儒的思想进行了辨析,在辨析方法上,运用西方心理学的方法对陆九渊思想进行分析,本文阐释了陆九渊心理认识过程的主体、客体及方式,分析得出陆九渊吸收了佛教禅宗的认识方式,对儒家思想进行发扬,这一

学位

陆九渊心理学援佛入儒

基于复苏促进因子强化活性蓝19染料生物降解研究

活性蓝19(Reactive blue 19,RB 19)是一种应用广泛、生产量高的蒽醌类染料,在染色过程中,部分染料未经使用而被排放进入废水处理系统,含有RB 19的废水具有高毒性、高稳定性等

学位

活性蓝19复苏促进因子耐盐菌固定化Bacillus sp.JF4

基于深度排序学习的零样本多标签图像分类

在图像分类领域,传统的图像分类系统要想准确识别某种类别,必须先获取对应类别的带标签训练样本,抽样其中部分样本作为训练集构造分类器,再进行测试分类。但实际情况中,目标

学位

零样本学习多标签分类跨模态映射多示例学习排序学习

高功率可并联固态发射机电源技术研究

随着通信、军事等领域的飞速发展,低电压高可靠性的固态发射机正逐步取代电真空管发射机成为主流。高功率固态发射机具有低电压的优势,但同时也提出了大电流的要求,而单个电

学位

高功率并联固态发射机均流

税收对跨国闭环供应链企业再制造博弈决策影响

人们对电子产品的消费需求随着产品迭代周期缩短,经济快速发展而大大增加,这一过程催生了大量废旧产品。废旧产品的不当处理,既会耗费大量仓储空间,也可能会对环境造成不利影响。闭环供应链使得废旧产品剩余价值被有效提取,缓解了资源浪费和消费需求扩张间的矛盾。为企业创造新的经济利益;又能树立环境友好的企业形象。所以许多大型制造企业都倾向于建造完整闭环供应链。政府作为经济调控的主体,一国政府的对外贸易倾向会直接

学位

跨国闭环供应链关税产品税再制造再制造授权许可

超高速撞击含有孔缝带电靶板的电磁场传播特性

超高速撞击卫星带电表面的物理过程是物质在强动载下的物态转变,会出现断裂、破碎、成坑、成腔和碎片云的膨胀。此外,空间碎片撞击卫星带电表面会诱导耦合电磁场的产生。卫星

学位

超高速撞击表面充电等离子体电磁特性孔缝

混凝土中热湿耦合传输试验及数值模拟研究

水和热量是最常见的与混凝土接触的介质,水分通过孔隙进入混凝土内部,不仅降低其孔溶液的PH值,同时又能携带有害离子进入混凝土内部,而热量在混凝土内的传导直接影响水分的传

学位

混凝土导热系数吸排湿特性热湿耦合数值模拟

基于注意力机制的图像描述生成算法研究

其他学术论文