论文部分内容阅读
随着互联网的快速发展,每天产生的图像规模都以亿计,呈爆炸式增长,这些图像具有很高的社会价值与商业价值。将图像与自然语言相结合在当前具有广泛的应用前景,图像描述生成任务就是对输入的图像生成准确描述图像的句子,它融合了计算机视觉和自然语言处理技术。近年来,基于深度学习的图像描述生成打破了传统方法的枷锁,取得了一些突破性成果。但是现有方法存在着对图像语义信息使用不充分、缺少特定场景处理等问题,为此,本文对基于深度学习的图像描述生成方法展开深入研究,主要工作分为以下三个方面:(1)提出基于Res Net-LSTM网络的语义标签提取模型。使用Res Net处理图像得到图像特征,并使用LSTM网络提取top-k的标签。针对网络之间直接传输数据会影响本层学习到的特征以及标签需要与描述之间相关联的问题,首先,在Res Net中添加线性层以及batch normalization层,对提取的图像特征进行转化并作为LSTM模型的输入。其次,预处理图像描述句子得到对应的标签,对模型进行有监督的学习,以生成与图像描述句子更加相关的标签。(2)提出基于语义加权的双层LSTM模型(A two-layer LSTM model based on semantic weighting,SW-2LSTM)。该模型将提取的标签向量直接作用于权重矩阵,并采用张量分解思想和集束搜索算法提高生成描述质量。针对语义信息使用不充分以及矩阵参数过多的问题,首先,将提取的语义标签向量全局作用于双层LSTM的权重矩阵,训练时每个标签对应一个权重矩阵,将原始的一个权重矩阵扩展为一个与标签相关的权重矩阵集合,这将形成一个具有大量参数的权重张量,为了减少参数数量,采用张量分解方式将形成的权重张量分解为三向矩阵乘积,提取出公共参数。其次,测试时在解码端加入集束搜索算法,算法通过加入概率模糊增加预测单词的不确定性,从而生成更优的图像描述句子。(3)给出基于场景分类的描述生成。针对现有算法一般采用多场景训练,没有考虑到特定场景的问题,将MS COCO数据集在其基本类别上划分场景,并使用SW-2LSTM模型在不同场景划分的训练集和测试集上完成描述生成任务。通过在公开数据集上进行实验,验证了提出的SW-2LSTM模型的有效性。