论文部分内容阅读
随着网络通信技术以及多媒体技术的飞速发展,人们获取知识的途径以及相互之间沟通交流的方式发生着翻天覆地的变化,越来越多的文本、图像、视频等多媒体信息不断涌入人们的视野。图像文本描述自动生成任务是一种融合图像和文本的多模态处理的关键技术,该任务结合了计算机视觉和自然语言处理两个关键领域,实现了从图像到自然语言的转换,它能够应用于基于文本内容的图像检索、网络图像分析等众多场景中。本文采用基于编码-解码的模型框架,通过学习数据集中的图像特征和文本表达方式,自动的为测试图片生成相应的文本描述。模型中涉及到两种深度神经网络,分别是卷积神经网络和循环神经网络,这两种网络近几年在机器学习领域有着广泛的应用。本文提出了基于文本牵引的注意力机制结构,将该结构分别应用于基于CNN-RNN和CNN-CNN的模型框架下,使得模型能够像人类一样思考,动态地为图像分配不同的注意力区域来生成相关的词语。本文工作和研究成果主要包括以下几个方面:(1)本文针对图像文本描述任务中,图像和文本之间底层特征的异构性问题,提出了一种寻找图像代表性的文本特征向量的方法。给定查询图像,在训练集中通过最近邻图像集的查找、“一致性语句”的选择以及语句特征的映射等一系列操作得到与查询图像最相近的文本特征向量,以此作为图像和文本跨模态数据之间的桥梁,指导图像生成文本描述语句。(2)本文设计了基于文本牵引的自适应注意力机制的CNN-RNN结构框架。在图像描述语句生成过程中,主要取决于两方面信息,一方面是图像的视觉信息,另一方面是语言模型结构。本文将文本特征向量融合到注意力机制中,使得解码器能够自适应的调整图像的视觉集中区域,从而生成更加符合人类描述的语句,能够有效提升实验效果。(3)本文设计了基于文本牵引的注意力机制的CNN-CNN结构框架。由于卷积神经网络在深度学习框架中具有并行计算和GPU加速的优势,使得可以利用多个网络层的堆叠代替循环路径来记忆上下文信息。实验中分析了网络层数和卷积核大小对实验结果的影响,并对两种模型架构的生成语句描述质量、训练时间和测试时间进行了分析比较。