论文部分内容阅读
图像描述旨在为给定的图像生成符合图像内容的自然语言描述。作为人工智能领域中新兴的研究课题,图像描述受到了越来越多的关注。图像描述不仅需要识别图像中的目标、目标的属性和目标之间的关系,还需要生成语法和语义正确的描述语言。因此,图像描述存在两个基本问题,即视觉理解和语言处理。这些问题的解决需要使用计算机视觉和自然语言处理两个方面的技术,极大地增加了图像描述任务的挑战性。目前先进的图像描述方法大都以深度学习算法为基础,先使用卷积神经网络(Convolutional Neural Network,CNN)作为编码器提取图像特征,然后使用循环神经网络(Recurrent Neural Network,RNN)作为解码器生成相应的描述。然而,现有的图像描述算法往往不能充分地利用图像的空间信息,也忽略了图像空间信息与时间序列信息之间的融合。为了解决以上问题,本文以编码-解码框架和注意力机制为基础,设计了三种图像描述算法,本文主要研究内容如下:1、设计了一种基于深度循环卷积网络的图像描述算法。该算法首先使用卷积神经网络提取图像特征,然后使用卷积长短期记忆网络(Convolutional LSTM,ConvLSTM)对三维的图像特征映射进行学习和记忆,最后将ConvLSTM隐藏单元的输出作为长短期记忆网络(Long Short-Term Memory,LSTM)的输入,指导语言生成模型在不同时刻单词的预测。与传统的基于CNN-LSTM框架的图像描述算法相比,本文算法生成的描述捕获了图像中更多的语义信息。2、为了更加充分地利用图像的空间信息,设计了一种基于空间注意力的图像描述算法。该算法首先使用卷积神经网络作为编码器;然后根据前一时刻生成的单词对卷积层输出的三维特征映射进行加权变化,最大程度地保留了图像的空间信息;最后将得到的空间注意力映射变换为上下文向量之后输入到语言生成模型中,使语言生成模型学习不同时刻下单词对应的图像区域。与之前的基于视觉注意力机制的图像描述算法相比,基于空间注意力的描述算法生成的图像描述包含更多图像的细节信息,更符合图像内容。3、为了将图像空间信息与时间序列信息相融合,结合上述两种算法的优点,设计了一种结合深度循环卷积网络和空间注意力的图像描述算法。首先使用ConvLSTM对得到的CNN特征进行学习和记忆,然后在ConvLSTM的输出之后添加空间注意力层,最后使用空间注意力层输出的上下文向量控制语言生成模型单词的生成。ConvLSTM层与空间注意力层的结合,使图像的空间信息与句子的时间序列信息相融合。网络的加深使模型学习了更多的图像和文本信息,从而使整个算法生成的描述与真实的标注语句更接近。此外,还设计了一种结合空间注意力和深度循环卷积网络的图像描述算法作为对比算法,以此证明结合深度循环卷积网络和空间注意力的图像描述算法的合理性与有效性。