【摘 要】
:
图像描述是一种让机器理解图像内容并生成对应自然语义描述的技术,它在不同领域都有着非常大的应用价值。本文选择遥感领域作为特定研究领域,将在该领域的图像描述算法称为图像解译,它能够帮助人类更好地从遥感图像中获取所需的地理空间信息。图像解译算法大多基于编码-解码框架,它由用于图像特征提取的编码器和生成解译语句的解码器构成。现有图像解译算法忽略了遥感图像在成像方式、图像内容上与自然图像的差异,直接采用预训
论文部分内容阅读
图像描述是一种让机器理解图像内容并生成对应自然语义描述的技术,它在不同领域都有着非常大的应用价值。本文选择遥感领域作为特定研究领域,将在该领域的图像描述算法称为图像解译,它能够帮助人类更好地从遥感图像中获取所需的地理空间信息。图像解译算法大多基于编码-解码框架,它由用于图像特征提取的编码器和生成解译语句的解码器构成。现有图像解译算法忽略了遥感图像在成像方式、图像内容上与自然图像的差异,直接采用预训练的深度卷积网络作为图像特征提取器,使得编码阶段丢失大量图像细节信息,导致解译结果不能充分反映图像内容。另外,现有算法在解码阶段只关注图像空间特征,忽略了与图像内容相关的文本信息对解码阶段的影响。本文针对图像解译算法在编码和解码阶段存在的问题,对现有模型进行了改进,主要工作包括:(1)针对遥感图像编码效果较差的问题,本文根据遥感图像中目标尺度变化较大的特点,提出采用基于多尺度池化和基于空洞卷积的方法获取不同尺度的空间特征,并与原空间特征进行融合,得到包含全局信息、多尺度信息及通道信息的融合特征。实验证明,融合特征明显提高了模型对遥感图像的表达效果,使得分类准确率提高了1到2个点不等。(2)根据解译内容与图像场景存在较强联系的特点,本文基于软注意力机制,加入场景类别信息用于注意力的计算,提出了一种基于场景类别注意力的图像解译算法。场景类别注意力在解码过程中提供了与图像场景相关的背景信息,使得模型生成与图像场景更相关的解译内容,在BLEU、METEOR等指标上也要优于软注意力机制。(3)本文利用标注的解译内容构造多标签分类数据集,并基于特征融合,提出了一种基于多标签分类的图像特征提取方法,用于提取图像空间信息和文本信息。在此基础上,本文提出了一种结合图像信息和文本信息的图像解译算法,探究了基于多重注意力机制和基于多层次LSTM的结合方式。实验表明,基于多层次LSTM的模型在BLEU、METEOR、CIDEr等7项指标上都要优于传统方法,生成的解译内容也更为详细。它充分利用了图像相关信息,弥补了图像特征表达效果不佳时对解译效果的影响,并消除了错误标签对解译内容的干扰。
其他文献
医学影像是一种非常重要的信息载体,其可以很好的帮助临床医师了解患者病情,辅助医师规划治疗方案。医学图像分割技术同样在临床应用中有着至关重要的作用,例如病灶大小测量、器官和病灶定位、病灶形状、放疗规划、辅助手术和解剖结构研究等。目前基于传统图像处理和深度学习的图像分割技术被广泛的应用于医疗图像的自动分割。然而,精确的医疗图像分割仍然存在以下挑战。首先患者的组织和病灶结构呈现高度的多样性和变异性;医疗
我们研究天然胶原中横向交联已有一些时候了,在交联时赖氨酸和羟基赖氨酸的氧化成醛基的ε-氨基与其他肽链的醛基或ε-氨基起反应。在醛鞣时的化学反应进行是相似的,因为鞣性醛在这里同样是与赖氨酸和羟基赖氨酸的ε-氨基起反应,生成了人工交联。我们提出关于我们的工作范围内取得的结果一览,是偏于实际明瞭情况的,但另
益生菌(Probiotics)是一类能够改善宿主肠内微生物平衡,并对宿主产生健康功效的微生物,然而益生菌在严苛胃肠和湿热环境易丧失活性,大多益生菌在60℃以上高温就会出现大量死亡,因此如何提高益生菌在湿热环境下的存活率是目前益生菌应用领域迫切需要解决的核心问题之一,使用良好的耐热壁材对益生菌进行微胶囊化可以很好地解决这一问题。本文首先通过转谷氨酰胺酶与预热后的乳清分离蛋白共价交联制备微胶囊,通过致
《祝福》以它深邃的思想,感染了一代又一代的中国人;鲁迅对封建文化的鞭挞,在今天仍有其巨大的现实意义.从民族文化反省的角度阅读作品,引导学生理解封建礼教对人性的摧残,反思封建思想对旧中国劳动妇女的毒害,对于生成、发展和提升语文核心素养大有裨益.《祝福》写于1924年2月7日,是《彷徨》的第一篇.相对于近100年后的人尤其中学生来说,理解文意就稍显困难,从“我”的视角出发,循着作者的创作意图,回归文本
近年来高校采取了诸多方案以缓解学生人数与实验仪器数量之间的矛盾。随着信息化教学的不断发展,高校使用计算机开发程序以模拟实验流程,已研发出相关虚拟实验代替传统实验。本文在此背景下设计了基于三维引擎的虚拟实验,不依赖传统测试软件内置函数,独立开发完成了三维实验的各项功能。与传统的二维虚拟仿真实验相比,该实验不仅模拟了实验流程,同时还具有很好的真实感与沉浸感。最后将该实验发布到网络上,使用户能够不受时空
布尔函数是密码学和电路设计的基础,布尔函数等价判定在加密函数设计和电路优化方面都有重要应用。等价判定问题的目标是对给定的两个布尔函数,判断是否存在由可逆矩阵和布尔向量构成的仿射变换,使得两函数仿射等价。若函数等价,则进一步给出对应的仿射变换。本文在研究了已有的等价判定方法基础上,提出了一种基于矩阵群的仿射等价判定算法。由于布尔函数全体及其仿射变换空间具有随变元个数呈双指数增长的特性,如何针对给定布
知识图谱技术的兴起为业界和学术界提供了一种更好的组织、管理和理解互联网中海量数据的有效方案。目前,知识图谱技术广泛应用于实体搜索、推荐系统、开放域问答等许多AI领域。然而,由于知识图谱的知识不完备,即图谱中存在缺失的实体或链接,导致知识图谱的使用存在巨大的限制,大大限制了知识图谱在用于检索和推理的准确性。补全知识图谱,完成知识图谱链接预测任务的研究成为知识图谱的核心任务之一。本文对知识图谱的链接预
基于图像的三维形状重建技术一直是计算机视觉领域的热门分支领域之一。然而,在现阶段的使用深度学习方法的基于图像的三维形状重建算法的学术研究中,往往对几何上的先验信息的挖掘有所不足和欠缺。因此,本文以单视角下和多视角下的三维重建为研究课题,重点研究了利用不同的深度先验信息,来实现高质量、高效率的三维重建算法。研究内容包含了三个部分,即三维-二维透视投影先验研究、三维形状的时空平滑先验研究以及真实场景中
在当今时代,互联网飞速发展,数据与信息都在爆炸性的增长,如何有效处理互联网上的数据受到人们的广泛关注。基于此,Google提出知识图谱的概念。知识图谱本质上是一种多关系网络,采用结构化的方式存储了现实世界中的实体与实体之间对应关系的知识系统。知识图谱被广泛应用在智能问答、推荐、信息检索等领域,成为人工智能领域不可或缺的数据支撑,对于推动人工智能的发展有着重要的意义。但受目前信息抽取技术的制约,很多
进入21世纪20年代,人类社会迎来了新一轮的科技革命和产业变革。计算机科技的发展对人们生活产生了越来越深刻的影响:人与人之间信息的沟通已不再是单一的书信、电话交流,价值转移手段也从面对面以物易物到如今的网上购物、线上交易、网络签约等过程中不断丰富。科学技术给人类带来便捷性的同时,人与人之间的信任达成也变得越来越复杂。区块链技术的出现,建立了一种全新的价值转移体系和信任构建方式,并以其防篡改、可追溯