论文部分内容阅读
人类能够快速地将注意力转移到一些视觉独特的区域,这些区域被进一步地感知和处理以提取更高层的信息。利用计算机模拟人类的这种视觉显著性,可以降低很多高层视觉任务的复杂度,并辅助神经生物学等对人类视觉机制的研究。卷积神经网络以一种数据驱动的方式从图片中自动学习特征,是计算机视觉中的常用方法,而现有的显著性预测模型也大多基于卷积神经网络。通过长期以来对视觉显著性的研究,目标先验和低层次的特征是引起视觉显著性的重要因素。本文基于卷积神经网络,根据视觉显著性的这些特性来设计显著性预测模型,并重点研究了两个问题。特征尺度上,针对分类模型的感受野太小、不适应显著性预测任务高分辨率输入的问题,本文设计了纵横大卷积模块。纵横大卷积模块将大卷积核的卷积分解成纵向卷积和横向卷积的形式,可以有效扩大模型的感受野。为了提高参数利用率,设计了纵横大卷积模块的膨胀形式。为了利用纵横大卷积进一步增强性能,设计了纵横大卷积的串行和并行形式去加深和加宽网络。基于纵横大卷积,模型从图片中提取了更为全局的特征,更好地预测大尺度目标引起的显著性。特征层次上,针对现有模型不能有效融合网络低层特征的问题,本文研究了一种新的多层特征融合方式——局部-全局特征金字塔网络。借鉴图像金字塔的概念,局部-全局特征金字塔通过对各层特征降采样,使卷积神经网络各层的特征具有了多尺度属性。基于局部-全局特征金字塔,模型更好地解释了低层次特征引起的视觉显著性,提高了显著性预测的性能。将纵横大卷积的串行形式作为基础模型,并使用局部-全局特征金字塔来融合各层次的特征,本文设计了新的显著性预测模型Multiple Context Aggragation Network(MCA-Net)。MCA-Net在显著性的两个基准数据集上取得了非常有竞争力的结果,通过定性分析也表明该模型对特征尺度及层次的良好适应性。MCA-Net使用大规模自然图片数据集进行端到端的训练,具有良好的泛化性,可以方便地用作很多视觉任务的前端。