论文部分内容阅读
图像自动标注的目标是预先给待标注图像标注一些丰富的、恰当的可以准确描述图像内容的关键词。由于具有在语义层面描述图像的能力,图像自动标注不仅在图像分析与理解领域有着广泛的应用,在形如城市管理、生物医学工程等相关学科也有着广泛的应用。而其中如何挖掘图像低层视觉特征和高层语义之间的关联性以尽可能的减小“语义鸿沟”是图像自动标注的关键所在。随着深度学习技术的飞速发展,人们尝试利用深度神经网络的深度架构和高效的认知能力来获取更稳健的图像特征,以及挖掘图像特征和语义之间更深层次的关联来进行图像自动标注。本论文提出了一种基于深度学习的图像自动标注方法,同时设计并实现了相应的算法来验证本模型的有效性。首先,在大量文献阅读的基础上,本文将图像自动标注方法分为5大类且从模型的框架结构、主要思想、出发点及主要侧重点、复杂度等多个角度对各类标注方法进行了描述和分析,以及在各类标注方法之间进行了详细的对比。此外,对于图像自动标注领域目前仍未解决的一些难题也进行了讨论和分析。其次,本文提出了一种结合图像最近邻的基于深度学习的图像自动标注框架。一方面通过深度神经网络将原始数据逐层抽象为标注所需的稳健的特征表示;另一方面则利用深度学习强健的学习能力来抽象出图像视觉特征和高层语义之间更加深层次的联系以更好的完成图像自动标注。具体地,本论文所提出框架的研究内容主要包括:第一,为了更好的表征图像,本论文提出了一种结合图像视觉特征和语义特征的稳健的图像特征表示方法。本文尝试通过有效的图像语义特征来融合图像视觉特征以得到高效的图像表征。具体来说,一是利用卷积神经网络(Convolutional Neural Networks,CNN)获取图像视觉特征;二是根据待标注图像的邻域图像来构建候选标签集,再通过多层感知机网络获得待标注图像的语义特征表示。第二,为了进一步的提升图像自动标注的性能,引入了标签个数预测模块。也即,考虑到不同图像之间内容和场景复杂度的差异,不再人为限制给每幅图像标注固定个数的标签,而是根据图像自身内容的复杂性,灵活的自动预测标签个数来完成图像标注。这样的标注方式也更加契合现实需求。最后,通过所获取的稳健的图像特征,分别训练多目标分类模型和标签个数预测回归模型,通过多目标分类结果结合所预测标签个数进行图像自动标注。为了验证本文所提出模型的性能,对于标注有81个主题或标注有1000个标签的标准图像集NUS-WIDE,通过模块功能验证实验,证明了本模型所提出的各功能模块(语义特征获取模块、标签个数预测模块)的有效性;以及通过和采用深度学习技术的图像自动标注领域一些经典模型(CNN+softmax模型、CNN+WARP模型、CNN-RNN模型、RIA模型、SINN模型以及tag neighbor+tag vector模型)的对比,也验证了本文所提出的标注方法是有价值的。