论文部分内容阅读
视觉信息在人类获取的信息中占有重要地位,随着数码成像技术和大容量存储技术的不断提升,数字图像成为视觉信息最重要的一个传播载体。而计算机视觉和自然语言处理的快速发展,使得在语句层次上描述图像的内容越来越受到人们的关注。图像描述不仅需要识别出图像中的物体,而且需要表达出这些物体的属性以及不同物体之间的关系,因此对于一幅图像进行语句层次上的描述会包含更多的信息。过去有很多针对图像描述的研究工作,从传统的模板匹配方法到相似性检索方法都有大量的相关工作。近几年随着深度学习的兴起,利用深度神经网络来完成图像描述是目前最广泛使用的一类方法。目前神经网络结构还在不断发展中,越来越多新的模型被不断提出,图像描述的性能也在不断提升。本文的研究工作是基于多模态递归网络这一图像描述的网络模型展开的,主要创新点包括:1)基于语句双向序列对多模态递归网络进行改进。原始的多模态递归网络在时间序列上展开后,每一时刻产生的单词是根据其前面的单词得到的,最终得到相应的描述语句。然而,语句中的每一个单词不仅与其前面的单词有关,而且也与其后面的单词有关。这里提出的双向多模态递归网络是从语句序列的正反两个方向来训练模型的,并根据目标损失函数来选取最终的描述语句,本文从网络结构、损失函数、训练过程、语句序列处理对模型进行了详细阐述,通过相应的实验结果表明所做改进对于图像描述性能的提升。2)使用空间特征和文本特征对多模态递归网络进行改进。原始的多模态递归网络在时间序列上展开后每一时刻产生的单词是不同的,但是每一时刻输入的图像特征却都是固定的。为了更加充分地挖掘图像中的信息,一方面可以把一幅图像划分成若干区域并分别结合不同的权重来形成图像的空间特征,另外图像特征也可以与模型每一时刻产生的单词的文本特征相融合,从而使固定的图像特征具备多样性。相关的实验结果表明使用特征融合更能提高图像描述的精度,另外一些图像输入到改进前后的模型中产生的语句实例都表明了所做改进是有效的。