论文部分内容阅读
图像显著目标检测旨在找出图像中最吸引人的目标,作为计算机视觉任务中的一个分支,在近几年越来越受到重视。作为其他计算机视觉任务中的一个预处理步骤,例如图像分割、场景重建、视觉追踪等,可以节省许多不必要的时间和空间成本代价。目前单幅图显著目标检测主要分为基于RGB图像及基于RGB-D图像的显著目标检测。随着深度传感器的应用,Depth信息被证明在显著目标检测中是一种具有特别重要价值的特征线索。因此RGB-D图像显著目标检测方法大量被提出,早期的工作都是基于人工设计特征的RGB-D显著目标检测,单纯的将RGB特征和Depth特征融合,缺失了目标的全局性。特别是在背景复杂的情况下,传统的方法取得的效果欠佳。近年来,随着深度学习的发展,各种各样的基于卷积神经网络的RGB-D模型被应用于图像显著目标检测。目前的基于深度卷积神经网络的RGB-D图像显著目标检测模型主要分为两种架构模式,一种为输入融合,即单流网络架构模式,另一种后期融合,即双流网络架构模式。针对RGB-D图像显著目标检测,本文分别基于这两种架构模式做了部分工作。针对于深度卷积神经网络的研究,本文第一个工作设计了一种基于单流网络的RGB-D显著目标检测模型,选择将RGB图像和Depth图像作为网络的四通道输入,同时增加了渐进式并行空间和通道注意力机制,以改进特征表示。空间和通道注意力机制更多地关注图像中的局部位置和通道,对突出显著物体的响应程度更高。这两种注意力特征分别由上一层的注意力特征进行优化,并行地反馈到递归卷积层中,在上一层的显著性映射的指导下生成侧边输出显著性预测结果。最后,从多尺度角度将多级显著性映射图融合在一起。在基准数据集上的实验表明,并行注意力机制和渐进式优化操作对提高显著目标检测的准确性起着重要作用,本文模型在评价标准上的表现优于当前比较先进的模型。在已有的基于双流网络架构的RGB-D显著目标检测模型中,将多模态情况下的RGB图像和Depth图像同等对待,并且在提取特征处理方式上面几乎一致。然而,低层的Depth特征对局部信息很敏感,存在较大的噪声,不能很好地表征图像特征。因此,本文提出了一种基于多模态特征融合监督的RGB-D图像显著目标检测网络模型,使用双流侧边监督子模块来分别获取RGB和Depth图像的各层次特征表征。然后采用多模态特征融合模块来融合主干网络VGG16Net的高3层RGB特征和Depth高维特征生成高层显著预测结果。网络从第1层至第5层逐步生成RGB和Depth各模态特征,然后从第5层到第3层,利用高层指导低层的方式产生多模态融合特征,接着从第2层到第1层,利用第3层产生的融合特征去逐步地优化前两层的RGB特征,最终输出既包含RGB低层信息又融合RGB-D高层多模态信息的显著图。在3个公开数据集上的实验表明,本文网络模型因为使用了双流侧边监督模块和多模态特征融合模块,其性能优于目前主流的RGB-D显著性检测模型,具有较强的鲁棒性。本文针对RGB-D显著目标检测提出了两种不同的模型和解决思路,并且取得了较好的结果,为计算机视觉任务奠定了一定基础。