论文部分内容阅读
作为计算机视觉领域的一个重要研究课题,图像语义分割的目标是将语义标签分配给图像中的每个像素,使彩色图像转化为语义标注图像。尽管深度学习方法的出现使得图像语义分割得到了明显改善,但仍存在一些问题:在某些复杂场景中,由于拍摄角度不同和光照不均匀,图像中包含许多不同目标相互重叠、低层视觉特征不明显等现象,因此常常出现一些因目标外貌特征相似而产生的语义混淆问题;除此之外,由于卷积神经网络中的下采样操作丢弃了大量图像信息,导致分割结果中物体间上下文关系模糊以及目标物体边界信息不清晰。因此,为了增强模型分辨外貌特征相似的物体的能力以及增强对物体边界定位的能力,本文提出了两种图像语义分割方法:基于空间深度信息的语义分割方法和基于级联CRFs的语义分割方法。两种方法的具体介绍如下:(1)考虑到深度图像的特性,本文提出了一种引入空间深度信息的语义分割方法,主要是向RGB支路叠加深度图像,以加入额外的场景空间信息,从而缓解模型混淆相似目标的问题。考虑到编码器-解码器模型和空间金字塔结构在语义分割中的优势,首先建立一个基于空间金字塔池化的编码器-解码器语义分割模型:Basic Net,然后在该模型基础上引入空间深度信息,建立基于RGB-D图像的双支路语义分割模型,两条支路分别用于RGB特征和空间深度特征的提取。为了使模型在学习图像语义信息的同时获取尽量多的空间深度信息,将两条支路的特征进行多次融合,再通过空间金字塔池化模块提取不同区域内的RGB-D特征,实现利用物体的空间深度信息达到将重叠的、易混淆的目标区别开的目的。最后,通过多组对比实验验证了本文方法的有效性。(2)虽然目前一些语义分割方法使用条件随机场获取边界信息,但通常只是针对模型的最终输出进行处理。本文建立了一种基于级联CRFs的语义分割模型,旨在从模型的不同层次学习边界信息,增强模型对物体边界的定位能力。考虑到条件随机场良好的边界处理能力,并受到FCN模型中跳跃结构的启发,本工作设计了一个级联CRFs模块并将该模块引入到Basic Net的解码阶段。具体来说,将Basic Net的多个解码器的输出进行条件随机场处理,并将当前条件随机场的输出作为下一个条件随机场的输入,以此形成一种级联关系。随着条件随机场的不断级联,不仅逐层补充了图像的深层特征和浅层特征,还更加准确地定位了物体的边界轮廓。为了进一步补充图像语义信息,将级联CRFs的输出与最后一个解码器的输出进行融合,使模型在增强对物体边界定位能力的同时得到更准确的语义分割的结果。最后,在不同数据集上的多组实验表明,该方法增强了模型对目标边界定位的能力。