论文部分内容阅读
图像语义分割(Image Semantic Segmentation)是计算机视觉领域中一项基础且极具挑战性的任务,其目标旨在估计图像中每个像素的类别标签,在驾驶辅助、室内室外场景解析和三维场景建模等视觉应用中发挥着日益重要的作用。最近,深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)已经成为解决图像语义分割的主流方法,通过使用大量标注数据(Ground Truth,GT)训练网络得到最佳拟合模型。现有方法通过堆叠大量的卷积层等方法构建复杂网络,尽管取得了显著的性能提升,但是面临严重的内存消耗和延迟等问题,使得其不适用于实时应用场景,如自动驾驶、增强现实、物联网等。因此,本文基于深度卷积神经网络,就兼具精度与速度的高效自动驾驶场景语义分割方法进行了深入研究,具体研究内容如下:第一,从轻量级模型设计的角度出发,本文提出了一种用于实时语义分割的轻量级编解码分割方法。该方法通过构建非对称的编码器-解码器网络以解决实时语义分割任务。编码器提出了一种新颖的基于分解卷积的残差编码模块,解码器设计了一个注意力金字塔模块,以提取密集的特征。实验结果表明,与目前最先进的深度卷积网络模型相比,该方法使用的参数量少,达到了71 FPS的前向推理速度以及70.6%的分割精度。该方法实现了分割精度和效率之间的平衡,成为解决图像语义分割任务的一种高效方法。第二,通过对图像语义分割这一稠密的结构性预测任务特性的分析,本文提出了一种面向实时语义分割的高效对称分割模型。该方法通过构建对称的编码器-解码器网络以解决实时图像语义分割任务。整个网络结构,通过对称的堆叠所提出的分解卷积单元和并行分解卷积单元以实现更快的模型前向推理速度,通过使用所提出的混合-带孔卷积模块扩大了感受野以提取深层次的语义特征,从而提高了网络的特征表达能力。实验结果表明,本文提出的整体网络架构在单个GTX 1080Ti GPU中能够以超过60 FPS的速度运行,达到平均交并比为70.7%的分割精度,且模型大小仅为1.6 M,成为在资源受限条件下实现高效图像语义分割的一种可行方法。第三,从上下文信息建模与利用人类视觉系统启发的注意力机制出发,本文提出了一种利用注意力机制引导的高效实时语义分割方法。该方法利用基于分解卷积改进的金字塔注意力模块提取密集的上下文信息。同时,该方法利用浅层特征图位置信息丰富的特点,基于空间注意力机制显式建模空间像素之间的语义关系来引导高层特征图进行上采样以恢复空间信息。大量的对比和消融实验结果表明,该方法能够以较快的前向推理速度运行且同时具有较高的分割精度。本文在两个城市场景基准数据集上对该方法进行了验证。在基准数据集Cityscapes上,该方法能够实现超过50帧每秒的前向推理速度,同时达到了71.3%的分割精度。在基准数据集Cam Vid上,该方法能够以超过90帧每秒的速度进行前向推理,同时达到了69.4%的分割精度。实验结果表明,本文提出的网络结构能够进行高效的图像语义分割,也可将其应用到更加复杂的场景理解任务中。综上,本文从轻量级模型设计、带孔卷积模块的利用、上下文信息建模、注意力机制的利用等角度出发,对基于深度卷积神经网络的高效图像语义分割方法进行了深入研究,并提出了面向自动驾驶场景的高效实时语义分割方法。实验结果表明,本文所提出的方法取得了具有竞争力的分割精度,同时能够有效地提高分割效率,具备了在真实场景中应用的能力。