论文部分内容阅读
二维图像文本描述生成是人工智能领域的一个热门研究,是指利用机器学习、深度学习等方法和技术,生成能够描述图像视觉内容的文本语言,涉及了计算机视觉和自然语言处理。基于视觉特征的二维图像文本描述生成关键算法研究旨在通过特征提取、特征融合、语言生成等算法和技术,生成完整的、符合语法结构的文本句子,准确地描述出二维图像的视觉内容。二维图像文本描述生成对于场景理解具有重要意义,人类的交流过程大多依赖于自然语言,使计算机能够描述我们的视觉世界将会导致大量可能的应用,如图像检索、语义视觉搜索;人机交互中的视障辅助;智能监控中的道路监控等。近年来,虽然该领域的研究取得了长足的进步;但是仍然存在着一些亟待解决的问题,表现在以下几个方面:(1)已有研究中仅考虑使用图像层次的特征或粗粒度的属性特征,造成重要判别信息的损失。在基于注意力机制的二维图像文本描述生成方法中,注意力机制作为特征融合算法能够充分发挥作用的前提是已提取足够的视觉特征;而在基于属性的图像文本描述生成方法中使用的通常是粗粒度的属性特征。忽略了目标特征和细粒度属性信息的互补性。(2)已有研究中未考虑以粗粒度到细粒度的方式理解二维图像的视觉内容,造成对图像细粒度内容描述的缺失。人类理解视觉内容通常是以粗粒度到细粒度的方式,对于给定的二维图像,人类首先会尝试快速浏览图像的视觉内容,获得大致的理解;然后,依据不同的目的,搜索图像中特定的子区域,并获取所需要的视觉信息。但是这种粗粒度到细粒度的理解方式,并未在已有的基于人工神经网络的二维图像文本描述生成算法中出现。一方面,大多数基于深度神经网络的图像文本描述生成算法主要考虑的是提取能够表达图像主旨内容的视觉信息,并生成文本句子来进行描述;另一方面,所生成的文本语言通常仅能描述出二维图像中粗粒度的视觉内容,造成了重要细粒度内容的损失。(3)已有研究中生成的文本描述句子对目标个体的外观属性描述存在欠缺。在基于注意力机制的二维图像文本描述生成算法中,所使用的注意力机制特征融合算法的贡献在于其能够为输入的特征信息分配不同的权重,从而融合多个特征信息;因此,注意力机制仅能决定输入的哪些特征信息较为重要。并且,注意力机制的输出结果通常是单一的、固定长度的特征向量,这会导致部分重要属性信息被弱化。此外,已有的基于属性的图像文本描述语言生成方法中忽略了目标个体所包含的中层属性信息的作用,如性别、年龄、颜色、纹理等。由于存在上述问题,基于视觉特征的二维图像文本描述生成关键算法研究依然是极具挑战性的课题。针对以上问题,本文进行了如下几个方面的研究工作:(1)目标特征和属性特征之间的互补性,以及注意力机制的融合作用。在视觉特征的提取方面,考虑从二维图像中提取全局图像特征、目标特征和属性标签信息;在特征融合方面,考虑使用注意力机制作为特征融合算法,融合提取到的目标特征和属性特征,并提出基于注意力机制的属性-目标融合算法。首先,将提取到的全局图像特征输入到语言模型中,获得对视觉内容的大致理解;再使用注意力机制融合目标特征和属性标签特征,获得重要的判别信息。提出基于注意力机制的属性融合算法,验证目标特征和属性特征之间的互补性;提出基于均值的属性-目标融合算法,验证注意机制的有效性和稳健性。(2)实现语言模型对不同视觉信息的粗粒度到细粒度的理解方式,以及文本描述句子的层次化生成。在视觉特征提取方面,尝试提取不同粒度的视觉特征,包括粗粒度的全局图像特征,图像子空间特征映射集合,以及细粒度的目标特征和属性特征。为了使语言模型能够模拟人类理解视觉场景的方式,提出序列双注意力机制,用作不同粒度视觉信息的特征融合算法。首先,将全局图像特征输入语言模型,获取对视觉内容的概括性理解;再使用空间注意力机制融合提取到的子空间特征映射集合;最后,在已有概括性理解的基础上,使用目标注意力机制融合目标特征和属性标签特征,得到对图像细节内容的理解。(3)中层属性信息对目标个体的修饰作用。为了避免注意力机制对目标个体的中层属性信息造成弱化,提高文本句子在外观描述方面的准确性,提出基于中层属性语言修饰的二维图像文本描述修饰算法。在视觉特征提取阶段,使用VGG16卷积神经网络,分别在不同的数据集上进行训练,得到用于提取人类目标属性和非人类目标属性的多个分类器;再使用faster R-CNN模型从二维图像中提取目标特征和目标框定区域,而目标框定区域则被用于提取中层属性标签。在文本语言的生成过程中,将提取到的中层属性标签和相对应的目标标签进行重组,生成能够描述目标外观特性的短语;最后,通过检索、替换的方法对语言模型生成的过渡性文本句子进行修饰,有效地提高最终文本描述句子的描述准确性。通过公共数据集和不同评估方法的实验结果验证,得出了以下结论:(1)提出的基于注意力机制的属性-目标融合算法验证了目标特征和属性特征之间的互补性,以及注意力机制作为特征融合算法的有效性和稳健性。(2)提出的基于序列双注意力机制的二维图像文本描述层次化生成算法充分利用了不同粒度的视觉特征,有效地避免了细粒度视觉内容的损失。(3)提出的基于中层属性语言修饰的二维图像文本描述修饰算法,实现了中层属性信息对目标个体的修饰作用,避免了注意力机制对目标外观属性的弱化。