论文部分内容阅读
图像理解是计算机视觉领域一个基础并且重要的问题,对于一张输入图像,研究者希望计算机可以像人类一样去理解其所包含的语义内容。作为图像的核心组成部分,图像中的物体包含了最为丰富的语义信息。近年来,随着机器学习技术的快速发展,计算机可以较好地识别物体所属的类别,在一些特定的识别任务上甚至可以超过人类的识别能力。然而,物体识别仅仅试图解决物体“是什么”的问题,而想要让计算机更加全面地理解图像,就需要对图像中的物体进行更精细的描述。通常,物体描述包含两个基本内容:属性描述和关系描述。物体属性通常是一些可观测到的、具有语义的物体性质,比如颜色、形状、纹理、部件等;物体视觉关系用于描述物体之间的上下文信息,比如两个物体的相对位置、动作等。 与物体识别相比,物体描述更具挑战性,主要体现在:1)同一语义(属性、关系)可以描述不同类别的物体,因此其内部的视觉表观差异大;2)物体通常包含多个相关的描述语义,逐一标注需要耗费大量的人力,在有限的标注成本下,标注不完全现象普遍存在。围绕上述问题与挑战,本文的主要研究工作包括: (1)提出基于乘积模型的物体属性描述框架。该框架考虑到同一属性跨类别的表观差异,利用乘积模型去显式构建物体类别相关的属性分类器;在类别不可知的情况下,该方法将物体识别和属性分类联合在一起进行学习,同时获得图像的类别和属性预测;通过引入弱监督数据,乘积模型可以进一步提高属性预测的能力,以缓解原始样本标注量小的问题;将乘积模型级联到深度特征学习框架之上,采用深度卷积网络来学习更适合属性预测的图像表示。 (2)提出不完全标注下基于辅助语义的直推式物体属性描述方法。该方法采用直推式的学习范式,将测试数据加入到模型训练当中,从而更加有效地建模数据之间的表观相似性;另一方面,该方法引入辅助语义,并利用属性预测和辅助语义的低秩约束,以更准确地推断未被标注的属性;在此基础上,该方法通过多种辅助语义的获取和迁移方式来进一步缓解不完全标注的问题。 (3)提出基于深度结构排序的物体关系描述方法。该方法针对视觉信息不足以刻画类型繁多的视觉关系之间的差异的问题,提出多线索融合网络,将视觉表观信息与位置信息和类别信息进行融合;除此之外,该方法通过结构排序损失更好地利用物体关系的共现性,缓解物体关系的不完全标注问题,进一步提升关系预测的性能。 (4)提出基于语义描述的物体检索框架。通过恰当的语义描述检索相关的物体不仅具有现实意义,而且可以在一定程度上验证物体描述的准确性。为此,本文提出基于递归神经网络的语义复合网络,显式学习语义的表示向量,并通过语义复合函数获得多个语义描述的联合表示,最后,利用该表示对相关物体进行检索。 综上所述,本文针对基于属性和关系的物体描述方法及其应用开展了广泛而深入的研究,通过建模物体类别、物体空间位置等辅助信息与语义描述之间的关系,初步解决了语义描述内部表观差异大和标注不完全的问题。除此之外,本文通过构建多个语义描述的联合表示,完成了基于语义描述的物体检索任务。