【摘 要】
:
基于深度学习的编码器-解码器框架在图像描述生成领域取得了很大的成就,它的本质是利用卷积神经网络挖掘图像中所蕴含的信息并进行编码,再利用循环神经网络来将此编码转换成
论文部分内容阅读
基于深度学习的编码器-解码器框架在图像描述生成领域取得了很大的成就,它的本质是利用卷积神经网络挖掘图像中所蕴含的信息并进行编码,再利用循环神经网络来将此编码转换成逻辑清晰的文字描述。该方法既能极大程度上挖掘出图像所蕴含信息,又能生成语法正确同时具有一定逻辑的图片描述,成功的提升了图像描述生成的准确性以及实用性。但是已有的研究大多仅挖掘了图像内部的语义信息,难以准确的获取图像中存在的类别间以及物体间的拓扑关系,而在描述一张图片的过程中,人们通常会考虑到不同类别间以及主要物体之间的拓扑关系。因此本文提出了基于空间拓扑关系的图像描述生成方法,主要研究重点和工作内容总结如下:(1)在图像描述生成过程中图像的编码阶段,卷积神经网络无法提取到不同类别间的拓扑关系。根据这一信息缺失,本文引入图像中不同类别间的拓扑关系来提升生成描述的质量。本文首先定义了图像中不同类别之间的拓扑关系,通过卷积神经网络处理不同类别的热力图,得到不同类别间的拓扑关系编码,再将一张图片中存在的所有类别间的拓扑关系编码与图像的特征向量通过神经网络共同编码到描述生成的过程中,满足了图像描述生成过程对不同类别之间拓扑关系这一信息的需求,提升了生成描述的质量。(2)由于类别种类繁多,而每一张图片中含有的类别数量相对较少,因此本文根据图像本身,引入图片中所有物体间拓扑关系来提升描述质量。本文定义了图像中不同物体间的拓扑关系编码,通过预处理图像,得到图像中不同物体的边界框(bounding box),对不同物体的边界框的内部的信息以及不同的物体间的位置关系进行编码从而得到不同物体间拓扑关系编码,再通过运用注意力机制将图片中不同物体之间的拓扑关系编码在描述生成的不同时刻赋予不同的权重,从而准确的将这些信息嵌入到描述生成阶段中,使生成的描述内容更加完善。(3)最后,本文在MS COCO、Flickr30k数据集上对文中提出的两种方法进行了实验验证。同时,将实验结果和已有算法的实验结果进行对比。结果表明,相对于传统方法,在引入拓扑关系之后,图像所生成的文字描述在部分评价标准上确实有所提高,对图像中不同类别的描述能力以及物体间关系体现程度有所增强。本文还特别对传统算法生成失败描述的一部分图片进行单独验证,其中一些图片通过本文提出的算法生成的描述远好于已有算法生成的描述。整体而言,所生成的描述也更符合人类的语言逻辑。
其他文献
基于电压源型换流器的多端交直流混合电力系统有利于提高城市配网供电的可靠性,提升供电品质。在一定程度上解决城市线路走廊挤压城市用地资源的问题。与此同时,随着国家和人
沿空留巷作为一种无煤柱连续开采方式,能够减少巷道掘进率,缓解采掘接替紧张,提高煤炭资源采出率。新景矿3#煤层过去采用留煤柱的护巷方式,不仅需要大量掘进巷道,造成煤炭损失,且工作面回采过程中易出现瓦斯超限问题。本文在总结前人研究结论的基础上,以新景矿3213工作面为研究背景,采用现场力学测试进行3#煤层围岩地质力学参数的获取,采用理论分析进行基本顶破断形态及其对留巷围岩影响的研究,采用理论分析与数值
随着城市建设的快速发展,地铁逐渐成为人们出行的主要交通方式之一,相较于地上交通,地铁有快速、不堵塞的优点,但是由于地铁站本身半封闭的结构特点,其内部的空气品质应该引
义务教育课程标准中明确规定了义务教育阶段各年级英语学习所应达到的听、说、读、写能力具体目标。写作是英语教学中的难点之一,只有学习者充分掌握语言规则,写作能力才能得以提升。而西南地区地理位置特殊,经济发展相对迟缓,教师群体教育观念更新相对较慢,社会大环境对学生个体发展影响颇大,且七年级学生处于初中英语学习的初级阶段,在词汇运用、语法理解等方面仍然存在困难,加之汉语与英语为不同的语言体系,存在较大差异
数据中心市场的规模化发展促使服务器电路板集成度越来越高,热流密度趋于密集化,释放的热量急速增加,有统计表明,单个电子元器件工作温度每提高10℃,其因为散热不良导致的热失效概率上升至少一倍,为满足数据中心服务器持续稳定运行要求,就需要及时对其运行中产生的热量进行平衡。数据机房基础设施的能耗主要由电子设备、空调系统、电源系统等组成,其中空调系统能耗占比仅次于IT设备,大约占数据中心全部能耗的40%。而
传统管幕工法是以单个钢管顶进为基础,各钢管间仅用锁扣连接,最终形成整体管幕结构,随后在管幕内部边开挖边架设临时支撑,最后再修建结构主体。传统管幕工法虽然能够减少开挖
社交媒体的飞速发展赋予了社交网络上的信息传播快速、海量的特点,使得对社交网络上的信息传播的研究具有重要的政治、社会、经济意义。其中对信息传播预测的研究,由于其在广
《中学生》杂志是开明书店在1930年创办的教育类综合月刊,它以中等教育程度的青少年为读者对象,以补足课堂知识、提供丰富的趣味、解答读者困惑、指导青少年前途和做便利的发
随着人类对未知领域的探索活动日益频繁,非完整约束移动机器人发挥着越来越大的作用。但由于机器人很多参数存在不确定性,而且在运动过程中,会受到外界环境施加的各种干扰,所
建筑物识别是通过计算机视觉设备获取建筑物图像信息,然后使用建筑物识别技术对图像中的建筑物进行分类和识别。该技术在智能视频导航、智慧城市智能交通和无人设备定位等领