论文部分内容阅读
场景语义理解是计算机视觉领域中的重要分支,它是机器通过视觉方式理解真实环境的主要工具,其广泛应用于自动驾驶、智能监控、智慧交通等领域。现有场景语义理解方法通常需要使用大量的像素级或者目标级标记数据进行训练,使得数据标记需要付出极大的代价。为此,研究者提出了弱监督下的场景语义理解方法,只需要图像级标签作为监督信息,大大减少了标记数据的工作量。弱监督下的场景理解虽然很有吸引力,但它是一个非常困难的问题。其主要难点在于训练时没有细粒度的目标位置信息,使得算法很难将不同类别的目标进行区分。为了解决这一困难,本文通过两类方法尝试恢复出较为准确的目标位置,并用不同方式来指导场景语义理解算法的训练。第一类方法通过引入先验信息,并对先验信息进行处理从而恢复出目标位置;第二类方法不引入外部先验,而是利用各种方式从神经网络中挖掘出目标位置。由于场景语义理解是一个非常广阔的领域,本文聚焦于低层的场景语义理解,主要包括语义分割和目标检测两个任务。具体来说,本文的主要工作和贡献体现在以下四个方面:1、提出一种基于显著性指导的弱监督语义分割方法。该方法针对弱监督语义分割问题,对现有的词典学习模型进行扩展,在其中加入可学习的权重变量来表示缺失的位置信息。为了恢复出准确的目标位置,该方法在模型中引入显著性先验,用以指导权重变量的学习。同时,该方法在优化目标函数中加入词典聚类项和相邻超像素的平滑性约束项,从而得到干净的词典和平滑的语义分割结果。在MSRC21、VOC2007和VOC2012数据集上的实验结果表明,该方法各个模块都能提高语义分割的性能。与现有方法的比较说明,该方法的性能优于所有非深度学习方法,同时与早期的深度学习方法可比。2、提出一种基于类别相关显著性指导的弱监督目标检测方法。该方法在网络中引入了类别相关显著图这一先验信息,并从中恢复出目标级别的位置信息,用来指导目标检测器的训练。我们提出一种基于上下文的方法,从类别相关显著图中得到高置信度的候选目标,称为种子目标,其中包含了目标级别的位置信息。为了解决候选目标中正负样本不均衡的问题,该方法在网络中嵌入一个物体性(Objectness)预测子网络,来计算每个候选目标为真实目标的概率,并用此概率对候选目标的特征进行加权,从而抑制负样本。为了充分利用种子目标中的位置信息,该方法还利用种子目标作为伪真值,直接监督候选目标分类子网络和物体性预测子网络。基于VOC2007和VOC2012的实验结果表明,该方法提出的各个模块对性能均有较大的提升,与现有方法的对比实验表明,该方法能取得更好的检测性能。3、提出一种基于分割感知(Segmentation-aware)的弱监督目标检测方法。该方法在弱监督目标检测网络中加入一个弱监督语义分割分支,能够从神经网络中获取像素级的目标位置信息。为了提升语义分割的性能,该方法提出一种新的全局池化方法——全局动态池化,能动态地计算每个像素对图像级分类分数的贡献程度,从而解决现有全局池化的缺点。为了利用语义分割分支的输出来指导目标检测,该方法提出种子目标选择子网络,能够端到端地从候选目标中选择出高置信度的种子目标,并利用它监督训练目标检测相关子网络。基于VOC2007和VOC2012的定性和定量实验表明,该方法提出的模块对目标检测性能均有较大提升。与现有方法相比,该方法在性能上有明显的优势。4、提出一种基于多尺度目标挖掘的弱监督语义分割方法。该方法使用一种多尺度目标挖掘网络,在多个尺度下分别预测目标位置,并且利用多尺度投票的方式对它们进行融合,从而挖掘出准确的目标位置。该网络使用三种损失函数,分别考虑图像级标签、分割结果平滑性和初始化目标位置等约束,充分利用了监督信息。该方法将挖掘出的目标位置用来训练一个语义分割网络,从而得到弱监督语义分割结果。基于VOC2012数据集上的定性和定量实验充分验证了多尺度目标挖掘网络的有效性。与现有方法相比,该方法能得到更好的分割性能。