论文部分内容阅读
显著物体检测是计算机理解周围环境重要的第一步。它的任务是让计算机能够模仿人的注意力机制去检测出图像中吸引人注意的区域。这些吸引人注意力的区域包含了图像中大部分的视觉信息。通过筛选出这些包含主要视觉信息的图像前景区域,图像理解的后续步骤既可以获得图像中更加干净和准确的内容信息,也可以减少在处理图像背景区域时的计算和存储资源,从而提高图像理解的后续步骤整体的性能。所以,显著物体检测被广泛应用于下游的计算机视觉任务中,例如:图像和视频的压缩,图像分割,图像识别,图像合成,图像搜索等。在计算机视觉的领域中,显著性物体检测可以被定义为一个二值分割问题。目前,虽然已经有很多基于传统的机器学习方法和深度学习的显著性检测模型被提出,但是这些模型的结果依然存在着两个不足:一是显著物体可以是任意形状,任意类别的物体,所以显著物体的边界都是奇形怪状的,没有明显的规律可循,而要让卷积神经网络去把一个任意形状的物体的边界分割好是一件困难的事情,所以,目前大多数的显著性分割模型能够大致的定位到显著物体的位置,但是边界却比较模糊。二是大多的显著性检测模型依赖于大量标注好的图像进行训练,而获得训练图像的标签需要花费大量的人力,物力,财力和时间。本论文分别提出了两个模型去解决上述两个问题。它们分别是“基于全体深度特征金字塔的显著性物体检测模型”和“基于串联生成对抗网络的半监督显著物体检测模型”。本论文通过大量的实验说明,“基于全体深度特征金字塔的显著性物体检测模型”能够从网络结构的设计上有效缓解现有显著性检测模型边界分割模糊的问题。同时,“基于串联生成对抗网络的半监督显著物体检测模型”能够通过半监督的训练方式显著减少显著性检测模型所需的有标签的训练数据。这为显著性检测模型能够应用到有标签数据有限的实际场景中提供了可能性。