基于深度循环卷积网络和时空信息融合的图像描述算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zyhhappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述旨在为给定的图像生成符合图像内容的自然语言描述。作为人工智能领域中新兴的研究课题,图像描述受到了越来越多的关注。图像描述不仅需要识别图像中的目标、目标的属性和目标之间的关系,还需要生成语法和语义正确的描述语言。因此,图像描述存在两个基本问题,即视觉理解和语言处理。这些问题的解决需要使用计算机视觉和自然语言处理两个方面的技术,极大地增加了图像描述任务的挑战性。目前先进的图像描述方法大都以深度学习算法为基础,先使用卷积神经网络(Convolutional Neural Network,CNN)作为编码器提取图像特征,然后使用循环神经网络(Recurrent Neural Network,RNN)作为解码器生成相应的描述。然而,现有的图像描述算法往往不能充分地利用图像的空间信息,也忽略了图像空间信息与时间序列信息之间的融合。为了解决以上问题,本文以编码-解码框架和注意力机制为基础,设计了三种图像描述算法,本文主要研究内容如下:1、设计了一种基于深度循环卷积网络的图像描述算法。该算法首先使用卷积神经网络提取图像特征,然后使用卷积长短期记忆网络(Convolutional LSTM,ConvLSTM)对三维的图像特征映射进行学习和记忆,最后将ConvLSTM隐藏单元的输出作为长短期记忆网络(Long Short-Term Memory,LSTM)的输入,指导语言生成模型在不同时刻单词的预测。与传统的基于CNN-LSTM框架的图像描述算法相比,本文算法生成的描述捕获了图像中更多的语义信息。2、为了更加充分地利用图像的空间信息,设计了一种基于空间注意力的图像描述算法。该算法首先使用卷积神经网络作为编码器;然后根据前一时刻生成的单词对卷积层输出的三维特征映射进行加权变化,最大程度地保留了图像的空间信息;最后将得到的空间注意力映射变换为上下文向量之后输入到语言生成模型中,使语言生成模型学习不同时刻下单词对应的图像区域。与之前的基于视觉注意力机制的图像描述算法相比,基于空间注意力的描述算法生成的图像描述包含更多图像的细节信息,更符合图像内容。3、为了将图像空间信息与时间序列信息相融合,结合上述两种算法的优点,设计了一种结合深度循环卷积网络和空间注意力的图像描述算法。首先使用ConvLSTM对得到的CNN特征进行学习和记忆,然后在ConvLSTM的输出之后添加空间注意力层,最后使用空间注意力层输出的上下文向量控制语言生成模型单词的生成。ConvLSTM层与空间注意力层的结合,使图像的空间信息与句子的时间序列信息相融合。网络的加深使模型学习了更多的图像和文本信息,从而使整个算法生成的描述与真实的标注语句更接近。此外,还设计了一种结合空间注意力和深度循环卷积网络的图像描述算法作为对比算法,以此证明结合深度循环卷积网络和空间注意力的图像描述算法的合理性与有效性。
其他文献
大学语文属人文学科。开设大学语文,旨在培养大学生的人文素质。而要讲授好大学语文,教师就要具有较高的情感素养。为了更好地实现该课程的育人功能,教师要积极探索陶冶自身情感
活性炭多污染物协同高效控制净化技术适用于我国钢铁企业排放量大、成分复杂的烧结烟气净化处理过程,宝钢湛江钢铁基地1#烧结机烟气净化选用了中冶长天国际工程有限责任公司
西宁市现存的藏传佛教寺院有三座——大佛寺(?)、宏觉寺(?)、金塔寺(?)。它们位于西宁市中心,大十字的位置。承担了西宁及周边藏、汉、土、蒙古族的信仰寄托。且随着时代的发展,不断被赋予了新的功能。历史上,西宁的藏传佛教寺院是联系中央与西陲少数民族的重要宗教场所;现在,它们推动着社会和谐发展。但关于三座寺院的历史,很少有人进行研究,寺院的僧人也知之甚少。明朝宗喀巴大师创立格鲁派,河湟一带的藏传佛教寺
随着经济社会和技术的不断发展与革新,广大公民开始逐渐摆脱被动式接受政府公共服务的方式,开始追求更广、更高的需求,需求与服务的矛盾突出,过去的公共服务形式已经满足不了新一代的公民,因此,亟需对政府流程进行新社会化的再造,以此满足新公众、新社会的需求。而检察系统作为广义上的政府部门也面临的司法系统改革和数据的大爆炸增长,公众、检察官、广大媒体等内部与外部人员对检察机关的要求越来越高,检察管理对于检察机
苏霍姆林斯基曾说:家庭教育好比植物的根苗,只有根苗茁壮,才能枝繁叶茂、开花结果。当家长的一定要克服溺爱、偏爱、护短的心理,以科学的方法重视家庭教育,特别是幼儿早期教
随着2008年中国艺术品市场不断向纵深发展,中国艺术品市场也在悄然地转身。在转身的刹那间,艺术品的价格与学术性等艺术含量方面的对比、考量已经成为一种评判中国艺术品市场
虽然我国的基础教育阶段的英语教学已经有了很大的进展,但是农村地区高中生英语写作还存在问题。写作教学处于学生怕学,教师难教的窘境。因此本研究以Krashen的输入假说理论和Swain的输出理论为理论基础,根据Ebbinghaus的遗忘曲线理论的规律,以福建省南安市某中学2018级高一年93名学生为研究对象,通过为期三个月的背诵教学实验,期间对研究对象进行写作前测试、写作后测试、词汇测试、背诵访谈从而
采用米非司酮配伍甲氨蝶呤用于36例异位妊娠患者的临床观察,结果表明:优于单用治疗效果,且明显降低了不良反应的发生,其用于临床有较满意的疗效,值得临床推广应用。
本文提出了一种结构简单的采用共面波导馈电的圆极化天线,工作在3.5GHz频段。设计从微带到CPW的转换可以有效地激励起CPW的偶模和奇模,并让这两种模式之间产生90°相位差。将