论文部分内容阅读
作为计算机视觉和自然语言处理的交叉领域,图像描述生成近年来一直是一个活跃的研究课题,它的研究有助于多模态社交媒体从非结构化图像数据向结构化文本数据的翻译。传统的研究工作提出了基于模板、基于检索、基于编码-解码的图像描述方法。在这些方法中,基于编码-解码框架的方法广泛应用于图像描述生成,其中,编码器采用深度卷积神经网络(Convolutional Neural Network,CNN)提取图像特征,解码器采用循环神经网络(Recurrent Neural Network,RNN)生成图像描述。神经图像描述(Neural Image Caption,NIC)模型在生成图像描述方面取得了良好的效果,但仍存在一些有待解决的问题。为了解决生成的句子描述中图像信息缺乏和偏离图像核心内容的问题,本文提出的模型使用视觉注意力机制加强对图像细节内容的理解,采取文本注意力机制增强信息的完整性,并提出视觉注意力和文本注意力相结合的双注意力机制指导图像描述生成。为了解决生成的句子偏离图像核心内容的问题,本文在NIC模型基础上,编码端使用Inception_v4网络提取图像特征,解码端引入视觉注意力机制添加到长短期记忆(Long Short-Term Memory,LSTM)网络中。为了解决生成的句子描述中图像信息缺乏的问题,本文加入文本注意力机制,增强生成的句子描述的信息完整性。本文尝试了基于全卷积网络(Fully Convolutional Network,FCN)提取标签和基于非负矩阵分解(Non-negative Matrix Factorization,NMF)主题模型提取标签的方法,将依附于图像标签的文本注意力和聚焦于图像区域的视觉注意力结合,采用双注意力机制指导图像描述生成。并探索了视觉注意力和文本注意力位置的不同对图像描述生成结果的影响。本文基于AIC-ICC数据集进行实验。基于双注意力机制的NICNDA模型的图像描述生成结果要比基于单注意力机制模型和基准模型结果要好,表明本文提出的基于双注意力机制的NICNDA模型是可行的。而且,基于双注意力机制结合方式的图像描述生成模型结果也表明本文对双注意力机制结合方式的研究是有意义且有效的。