论文部分内容阅读
自2012年Alex-Net在ImageNet大规模图像分类比赛中取得成功后,深度学习在图像分类、目标检测和分割的性能上都取得了非常大的提升,达到甚至超过了人类的识别水平。在此基础上,进一步研究图像内容理解成为大势所趋。视觉关系检测作为对象检测和图像理解的中间级任务,在近几年受到越来越多的关注,成为计算机视觉领域的研究热点之一。视觉关系检测的目标是从图像中识别出所有的<主语-谓词-宾语>三元组,同时标注出主语和宾语的位置,可分为谓词检测、短语检测、关系检测等三个子任务。与图像分类、目标检测等任务相比,对象之间的关系更为抽象,因而如何有效表征自然图像中对象之间的视觉关系是一个挑战。近几年来研究人员先后提出了基于语言先验、统计依赖和知识表征学习等技术的视觉关系检测方法,它们利用了对象的视觉特征、位置特征和/或者语义特征进行关系检测。然而,这些方法一方面没有充分获取有效表征对象间视觉关系的特征,另一方面也没有考虑不同种类特征之间的相互联系,因此检测性能还不太理想。针对上述问题,本文对图像中对象之间的视觉关系表征进行探索,从对象多特征融合表达、多特征的相互关联作用两个角度,对视觉关系检测方法开展研究,主要工作如下:1)提出了一种基于对象多特征融合的关系检测方法。首先利用CNN提取每个对象的视觉特征和对象之间的位置特征,利用词向量矩阵提取每个对象的语义特征。然后,采用两级特征融合策略对三类特征进行融合,使得特征之间能够相互关联,从而可以更好地表征关系;最后基于融合的多特征进行视觉关系分类。通过在公开数据集VRD和VG上的实验对比,该方法在视觉关系检测的三个不同子任务上的性能均优于深度关系网络(DR-Net)和深度结构排序(DSL)方法。2)提出了一种基于短期记忆选择网络(Short Term Memory Selection network,STMS)的视觉关系检测方法。在多特征融合的视觉关系表征的基础上,利用GRU模仿心理学中的短期记忆选择机制建立视觉关系检测模型,将主语和宾语联合区域的特征作为初始状态,主语和宾语作为输入,通过主语和宾语刺激联合区域,输出视觉关系分类结果。该模型的优点在于不仅充分利用了联合区域的特征,而且依靠神经网络的强大推理能力去除不重要的背景信息,从而达到提高检测性能的目的。在公开数据集VRD和VG上进行的对比实验表明,本文提出的方法比目前最优方法在最重要的关系检测子任务上的Recall@50高出3%;其他子任务性能对比也证明了我们提出的短期记忆选择网络的有效性。