论文部分内容阅读
图像描述任务就是对输入图像生成相应的文字描述,它有利于人们对不同的视觉场景进行更好的理解。该任务在人工智能领域内备受关注,在无人驾驶、军事安全等方面有着重要意义。本文针对目前图像描述任务所用到的方法进行了研究,并在现有方法的基础上提出一体化训练的方法来提升图像描述的效果,主要研究工作和创新点如下:1.对图像描述数据集完成了图像预处理与图像特征提取的工作。在预处理方面,本文对数据集中所有的图像数据进行了筛选处理工作,把原始图像中不符合要求的损坏图、灰度图、多通道图分别进行了相应的删除与转化处理。在图像特征提取方面本文使用了卷积神经网络,并且使用了迁移学习的方法把预先训练的参数迁移到本文的卷积神经网络中,并根据现有数据集对网络参数进行调整,用来提升特征提取的速度,改善特征提取的效果。2.对图像描述数据集完成了文本预处理工作。本文对文本进行了预处理操作主要是把文本进行单词分割并对其中的关键词进行提取,并选择相应频率较高的单词进行向量转换。本文使用了长短时记忆网络根据图像与文本之间的关系进行训练。3.本文介绍了目前现有的分开训练的松散模型,并在该模型的基础上提出了卷积神经网络与长短时记忆网络联合一体化训练的联合模型。通过对松散模型与联合模型的介绍与分析,说明了联合模型的优势,并对其核心的一体化训练方法进行了详细介绍。为了保持结构一体化本文选用TensorFlow框架完成联合模型的构建。正向传播过程中利用卷积神经网络对图像进行特征提取,并把提取后的图像特征用于长短时记忆网络隐含层的初始化,同时把文本向量作为长短时记忆网络的输入,从而使图像与文本产生关联。在训练的反向传播过程中,根据最终损失值同时对两个网络的参数进行更新,完成一体化训练,实现图像作为输入文本描述作为输出的端到端的生成方法。本文选择利用分开训练的松散模型和一体化训练的联合模型进行实验对比。实验结果证明,本文提出的一体化训练方法,实现了端到端的方法使得训练操作过程得到简化,而且通过BLEU得分的数据分析得出联合模型的得分相对于松散模型得分提高了18.08%左右,而且可视化得分分布明显优于松散模型。对比结果说明本文提出的一体化训练的联合模型的图像描述效果要优于分开训练的松散模型。