论文部分内容阅读
显著性目标检测在近些年来受到了越来越多的关注。它能够模拟人眼视觉系统来判断图像区域的重要程度,从而获得有用的信息。这使得显著性目标检测可以被应用在很多计算机视觉问题的预处理中,包括目标识别、视频压缩、内容感知的图像编辑以及图像检索等等。在过去的几年中,很多显著性目标检测的方法被提出。传统的显著性目标检测方法通常使用人为设计的低水平的特征如颜色、强度及对比度等。这些人为设计的特征都是基于人类对于视觉注意机制有限的知识设计的。在一些复杂的自然场景下,这些特征往往不能很好的表达图像中的前景和背景,使得传统的显著性检测方法在很大程度上具有局限性。有效的特征表达对于显著性目标检测十分重要。最近,卷积神经网络(Convolutional Neural Networks,CNNs)在很多计算机视觉任务中都表现出其优越的性能。它能够智能地从原始图片中提取出高水平和多尺度的复杂特征表达。归功于从高水平特征中获得的语义信息,基于卷积神经网络的显著性检测方法成功地打破了传统算法的瓶颈。如何设计合理地网络提取有效的特征表达,如果合理地处理提取出的特征已经成为目前显著性检测领域要解决的关键问题。尽管已经有一些先进的算法被提出,但想要研发出有效的显著性检测方法仍然存在一定挑战。现有的算法大都通过融合多尺度的卷积特征来设计显著性模型。然而,不是所有的特征多对于显著性检测同样重要,有些特征甚至会产生干扰。为了解决这个问题,本文引入注意机制(Attention Mechanisms)来为图像特征赋予权重。基于注意机制,本文设计了渐进性注意驱动的网络结构,在融合多尺度特征的同时滤除背景中的干扰信息,得到最有效的特征表达。最后本文使用这个特征来进行显著值的预测。另外一方面,我们注意到深度网络浅层输出的特征包含丰富的细节和结构信息,但是由于浅层无法获得高水平的语义信息,使得这部分特征非常杂乱,不具备有效的表达能力。为此,本文引入多路径递归反馈连接(Multi-path Recurrent Feedback Connections)将网络最顶层的语义信息传输到网络较浅的层,从本质上改善了整体网络的性能。我们将本文的算法在六个公开的显著性目标检测数据库上进行了测试,并与13种最先进的显著性目标检测算法进行了定量和定性的比较。实验结果表明,相较于其他算法,本文算法能有效的抑制背景的干扰,准确均匀地突出显著目标。在准确率-召回率(P-R)曲线,F-measure值,MAE值等的比较中,本文算法也表现出了很大的优越性。最后,本文进行了分步实验,详细分析了算法每个模块的有效性。