基于GAN和GRU的图像描述方法研究与应用

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:justice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务的目的是计算机自动生成图像的描述性语句。近年来,图像描述技术获得人们的广泛关注,主要原因包含两个方面:一方面,图像描述技术有着广阔的应用前景,例如盲人导航、智能监控、儿童早期教育等领域;另一方面,图像描述是计算机视觉和自然语言处理的跨模态技术。因此,这要求计算机不仅识别图像中的主要实体及其属性,联系实体间的关系,还要用自然语言描述出来。目前,图像描述的主要研究方法是基于深度学习的编码器-解码器(Encoder-Decoder)框架,虽然Encoder-Decoder的改进不断提出,其生成的图像描述语句的准确性也在提升,但是该模型结构还存在不足之处:1、传统的Encoder-Decoder模型使用极大似然估计来训练模型,它要求模型最大概率生成与真实描述一致的描述语句,忽略了图像描述语言表达的自然性和多样性。2、传统Encoder-Decoder模型生成的描述文本和图像内容的相关匹配度不高,降低了生成的描述语句的质量。3、传统图像描述技术在交通监测方面的应用受限,主要是因为缺少适用于图像描述的交通监测类数据集。本文提出了一个基于生成对抗网络(GAN)的图像描述模型,对上述问题进行改进。生成对抗网络一般由生成器和鉴别器两部分组成,生成器的目标是尽可能生成与真实描述相同的描述语句来骗过鉴别器,而鉴别器的主要工作是判断输入的句子是真实描述还是由生成器生成的。两者交替训练直至收敛。本文的主要研究工作为:(1)本文提出了基于Encoder-Decoder的生成网络,在生成网络中提出了一种新的融合注意力机制让解码器可以更好的理解图像中的内容,其主要作用是图像的局部特征和全局特征联合起来进行交流,通过计算获得融合的特征向量,从而使解码器生成更加准确的描述文本。其次,通过对卷积神经网络和循环神经网络的深入研究,我们选择Res Net101网络对编码器进行改进,通过其残差连接,在高效提取图像特征时,能有效避免梯度消失或梯度爆炸现象。本文模型的解码器选择门控循环单元(GRU)优化序列文本的处理,不仅拥有长时间记忆功能,还相比于同等功能的LSTM参数更少,网络结构更加简洁,提高模型训练的效率。(2)本文提出了基于GRU的鉴别网络,鉴别器采用门控循环单元作为主体编码,其输入生成描述、真实描述以及图像特征向量,将图像特征向量和文本编码向量输入到融合注意力中,输出重点整合向量,和编码向量做语义匹配。训练模型时,因为生成器输出的是离散文本,梯度信号无法反向传播给生成器。因此,本文使用基于强化学习的训练方法来实现本文模型的训练。其次,本文提出了一个语言评估器,由各种评价指标组成来输出客观评估分数。鉴别器和语言评估器的输出结合作为生成器的奖励,指导生成器的生成。在MSCOCO公共数据集上验证了本文模型的有效性。(3)本文提出了一个交通图像数据集,在本文模型的基础上加入注意力因子,加强对光线,颜色的敏锐度,提高模型性能。本文模型在交通数据集上进行实验,对比其他主流模型,结果表明本文模型能有效提高生成交通描述文本的质量。
其他文献
女性乳腺癌在全球的发病率和致死率位居前列,是威胁女性健康的首要疾病。早期的治疗能有效降低乳腺癌患者的死亡率。医学影像检查能在早期发现乳腺癌,且操作简单,无创伤,安全性高,是临床中诊断乳腺癌的首选方案。乳腺肿块和钙化点是乳腺癌的重要表现形式,但由于医学影像存在像素分辨率低、乳腺组织与病灶区域对比度低,医生在大量阅片时可能存在错误诊断的风险。本文以乳腺钼靶X线图像为研究对象,以乳腺肿块分割和钙化点良恶
学位
乳腺癌对人类健康有着极大的危害,近年来,乳腺癌的发病人群逐渐趋于年轻化,并且其发病率和死亡率都非常高,因此,及时的诊断与治疗能够有效控制死亡率。组织病理学检查是乳腺癌诊断的关键手段,所以,对乳腺癌组织病理学图像的分类进行研究具有非常重要的价值。传统的分类方法需要人工进行图像预处理、特征选择和提取等复杂流程,不仅费时,而且不同专家的诊断存在主观性。近年来,卷积神经网络凭借其非常强的特征学习能力,在医
学位
随着计算机技术地飞快发展以及人类对通信网络的要求越来越高,无线移动通信网络也发生着日新月异的变化。在无线异构网络通信系统中,宏基站服务区域常伴有低功率的小型基站随机部署,而这些小型基站的分布在带来庞大用户数量的同时,也使得宏基站的宏用户数量超负荷、边缘用户受到邻近微小区的干扰逐步加剧,从而导致整个宏基站覆盖区的通信服务质量降低。已经存在的功率分配算法主要考虑如何提高频谱利用率、吞吐量和怎样保证单一
学位
不透水面(Impervious surface)是地表覆盖的重要组成部分,是衡量城镇化的关键指标。不透水面的持续增加会导致一系列显在或潜在的负面影响,如耕地的损失、地表热岛效应、空气质量恶化和区域气候水文改变等等。准确、及时地掌握不透水面的空间分布格局、量化动态变化信息对于了解区域城镇化进程、制定城镇开发边界至关重要,生成并存档不透水面时序数据集对于土地利用变化、环境变化和城镇可持续发展等研究具有
学位
现如今无线通信业务需求呈指数增长,针对频谱资源有限的问题,提出多输入多输出技术。而大规模多输入多输出技术通过在基站侧放置大规模天线阵列,在频谱资源不需要增加的情况下可有效提升无线通信的传输速率及频谱效率。但随着收发两端天线增加,空间信道环境趋向复杂,发射端将信号进行编码、调制后从天线发出,通过无线信道到达接收天线时,将接收信号恢复为原始发射信号的过程正面临巨大的挑战。传统线性最小均方误差算法虽达到
学位
极化码是一种容量可达香农极限的构造性编码,目前已成为5G移动通信系统编码方案,是信道编码前沿领域研究方向。但是,极化码传统译码算法在纠错性能、译码时延等方面仍有待完善。当前在极化码深度学习译码算法的理论框架以及低复杂度、高可靠神经网络译码器的研究还远远不足。有鉴于此,本文在极化传输理论的基础上,研究了深度学习在极化码译码中的基础理论及关键技术。在此理论框架的指导下,本文从循环冗余列表SC算法理论与
学位
水、能源和粮食(water,energy and food,WEF)作为人类生存和发展的基础性、支撑性物质资源,一方面由于资源有限而需求量不断增加,日益成为制约现代人类社会发展的“资源短板”,一方面又因三者之间存在的相互影响和相互作用而形成错综复杂的“纽带关系”,日益成为影响可持续发展的重要因素和关注焦点,且对不同区域的影响和表现形式也不尽相同。欧亚大陆中高纬度干旱半干旱区人口集中,是全球主要粮食
学位
大气氮(N)沉降是全球生物多样性面临的三大威胁之一。由于工业气体排放等人类活动导致大气氮沉降量持续上升,对陆地生态系统的服务和功能产生了重要影响。目前,国内外关于氮沉降对陆地生态系统的研究大多围绕地上植物植被展开,而对地下潜在植被—土壤种子库影响的研究被忽略。土壤种子库能够通过“储藏效应”等机制来维护植物群落的物种多样性,是植物群落更新的重要资源,也是生态系统抵抗力和恢复力的关键因素,是生态学研究
学位
随着科学技术的快速发展,人类社会对智能化的需求越来越广泛,涉及各个领域。计算机视觉是人工智能领域的一个重要分支,它是通过计算机设备对生物视觉的模拟,实现对图像任务的理解和处理。目前,计算机视觉在监控系统、支付安全和自动驾驶等应用场景下发挥着重要的作用。然而,对于一些户外条件下的计算机视觉系统,容易受恶劣天气的影响,导致此类系统性能下降甚至失效。最常见的恶劣天气是空气中大量水蒸气、灰尘等悬浮粒子导致
学位
群落构建一直是生态学领域研究的热点,它不仅关系到生物多样性的保护与利用,也关乎生态系统功能的发挥与可持续发展。而研究生物多样性的环境梯度变化规律,可以在一定程度上探讨、理解群落的构建机制。鉴于此,本研究基于西营河流域沿海拔梯度形成的6个不同植被类型,从物种多样性、谱系多样性、功能多样性三个维度以及α、β两个层次,结合环境因子的变化,分析了多样性的分布格局及其影响因素,并探讨了植物群落的构建机制,从
学位