论文部分内容阅读
自然场景图像中显著物体检测是近十年来在计算机视觉领域中快速发展的一个新兴研究分支。不同于传统的物体检测、识别和图像分割等领域,显著物体检测的任务是检测并分割出图像中的显著物体,而不是检测和分割出图像中所有的物体或区域。另外,一般而言,显著物体检测的输出结果也不是传统物体检测任务的目标框,而是用显著图来反映图像各区域是否属于显著物体。 从本质上说,显著物体检测涉及两个核心问题。即:第一、应采用何种方式去比较图像各区域之间的差异。第二、应使用何种特征去度量显著性,以及怎样定义从特征到显著值的映射函数。围绕这两个核心问题,本文开展了以下的研究。 首先,针对许多算法常依据“背景先验”选择对比区域和仅使用底层特征的这两点不足,本文提出了基于特征空间分布的显著物体检测方法(简记为FSD)。该方法首先计算含有语义信息的高层特征在图像平面空间的分布值,然后依此挑选对比区域用于显著性检测。相比依据“背景先验”的方法,FSD能够自适应地选择覆盖更多背景区域的对比区域,且对显著物体的空间位置不敏感。另外,FSD在计算中仅使用含有语义信息的高层特征,其比许多算法使用的底层特征具有更强的区分和判别能力。这些特点使得FSD能有效减少处理复杂图像时所产生的虚警和漏警。 然后,针对传统方法所用的特征不能有效检测复杂图像显著性的问题,本文提出了基于多层次特征学习的显著物体检测方法(简记为MFL)。其在FSD的基础上,定义了包含全局对比、局部对比和自身响应信息的多层次深度特征,这样既能从全局和局部对比的角度共同度量显著性,且同时也引入了人的经验知识。此外,MFL将FSD中人为定义从特征到显著值的映射函数的方式发展到通过训练样本自动学习映射函数的方式,使得算法能够自己学习到合理利用特征各维度的方法。这些特点使得MFL对复杂图像具有更强的检测能力。 进一步地,针对离线学习的显著性检测方法都没有对样本进行针对性训练的不足,以及为了简化FSD和MFL求取显著图的过程,本文提出了基于提升物体级别显著性的检测方法(简记为BOS)。其使用物体建议区域作为计算单元,既简化了生成显著图的过程,还提高了显著图的质量。更重要的是,本文在BOS中提出了提升森林算法用于对容易错分的样本进行有针对性的提升训练,进而更有效地学习到复杂图像中的显著值映射函数。BOS也因此拥有对易错误分类样本的强鲁棒性。 最后,针对目前深度学习方法的网络结构普遍复杂而实时性较差,且对复杂图像的检测能力不足的问题,论文提出了基于多层次特征生成网络的显著物体检测方法(简记为MFGN),其以MFL方法为基础,用一个结构简洁的端对端网络实现了MFL中提取多层次特征的思想,且其特征还具有多尺度上下文信息的表达能力,以及同时利用语义和细节信息的特点,这使得MFGN能以33FPS的速度实时和有效地检测复杂图像中的显著物体。