论文部分内容阅读
计算机视觉技术是利用计算机代替人眼对图像或者视频中的目标进行识别、检测和跟踪等,然后对其进行下一步的处理。随着深度学习的高速发展,以深度学习技术为基础的计算机视觉也渐渐出现在日常生活中的各个领域。图像语义分割是计算机视觉领域的一个分支,越来越多新兴的应用领域需要精确和高效的分割机制,如自动驾驶、地理信息系统和医疗影像分析等。如何得到精确高效的分割结果,是当前语义分割领域迫切需要解决的问题。基于区域的语义分割方法使用多尺度提取相互重叠的区域,可识别多种尺度的目标并得到精细的物体分割边界,但是这种方法流程较复杂。基于全卷积网络的方法使用卷积神经网络自主学习特征,可以针对逐像素分类任务进行端到端训练,但是这种方法通常会产生粗糙的分割边界。针对当前一些语义分割算法流程复杂、分割结果粗糙的问题,本文提出了一种结合区域和深度残差网络端到端的语义分割模型。首先使用候选区域生成算法在图像中生成候选区域集。候选区域由边界框(bounding box),前景掩膜(mask),前景大小(size)三部分进行描述,并进行存储备用。然后将图像通过带扩张卷积的深度残差网络进行特征提取得到特征图。深度残差网络最先用在图像分类任务中,取得了很好的效果,但该网络最终的输出特征图分辨率低。为了适应图像语义分割任务,提出使用扩张卷积核来代替原残差网络模型中的普通卷积核,使网络最终输出高分辨率的特征图,便于后一步分割和分类操作。结合候选区域以及特征图得到区域特征,并将其映射到区域中每个像素上。为了更加突显目标前景,提出融合区域特征与区域前景特征两种特征。最后使用全局平均池化层进行逐像素分类。全局平均池化分类层可以接收任意尺度的输入,并进行逐像素分类。本文还使用了多模型融合的方法,在相同的网络模型中设置不同的输入进行训练得到多个模型,然后在分类层进行特征融合,融合方式包括均值法、投票表决法,得到最终的分割结果。在SIFT FLOW和PASCAL Context数据集上,本文提出的算法与现有的方法相比具有更高的平均准确率。通过定性对比实验结果可以看出,本文算法在目标边界处分割准确,分割边缘接近于真实标注结果,并且在一些小尺寸的目标上也有不错的识别效果。