论文部分内容阅读
随着人工智能技术及其应用的不断发展,神经网络算法只需要通过大量的数据以及性能卓越的硬件设备,就可以使计算机模拟人类的行为,并且应用在生活的方方面面,使人类可以更加高效的完成工作、获得可观的经济效益,促进社会的进步。图像描述结合了“自然语言处理”和“计算机视觉”两个热门研究领域,旨在使计算机在分析输入图像的视觉信息后,输出关于图像内容的连贯流畅的自然语言描述句子。目前对于图像描述生成的研究取得了快速的发展,并且衍生出很多不同的方法。然而现有的图像描述方法普遍存在生成的描述句子联系上下文长期记忆不足、生成的描述语句与图像的相关性较差等问题。本文基于多模态神经网络(multimodal Recurrent Neural Network,m-RNN),通过分析m-RNN的结构,结合当前图像处理和自然语言处理的研究前沿,从图像特征提取部分和文本序列数据处理两方面入手,找出m-RNN对于一些图像生成描述的效果不佳的问题所在,进行了以下工作:(1)探究使用卷积神经网络(Convolutional Neural Network,CNN)分析提取图像特征的功能,深入理解Vgg-16网络的逻辑内涵,在构建图像描述模型的图像特征提取部分时利用卷积注意力(Convolutional Block Attention Module,CBAM)模块优化Vgg-16网络的图像特征提取功能,通过通道注意力和空间注意力两个子模块对原始特征图进行调整,忽略原始特征中冗余无意义的特征,使保留的特征更加关注图像中目标物体本身,从而提高图像描述生成模型中图特征对图像的反映精确度。(2)探究使用门控循环单元(Gated Recurrent Unit,GRU)优化图像描述模型中的序列数据处理部分,通过GRU的更新门和重置门来调控序列数据的选择过程,改善图像描述模型中使用普通RNN产生的梯度弥散所带来的生成文本长期记忆不足的问题。然后将图像特征与序列特征相融合,实现图像描述句子的生成。(3)在数据集MSCOCO上进行实验,采用困惑度、BLEU、METEOR、CIDEr和人工主观评价等标准对比了本文方法与其他方法。并且为了验证CBAM注意力模块的效果,使用Grad-CAM可视化方法对比了Vgg-16与Vgg16+CBAM提取图像特征的可视化结果。实验验证了本文方法的有效性,证明本文方法在图像描述生成任务上的性能有所提升。