论文部分内容阅读
图像语义分割是一种像素级的分类任务,其目标为精确确定图像中物体的位置和类别。在基于深度学习的语义分割方法中,一般利用卷积神经网络(Convolutional Neural Network,CNN)提取图像特征,然后使用分类器进行分类,最后使用条件随机场(Conditional Random Field,CRF)修正分类器的分类结果来提高像素标记精度。在这种方法中需要解决的问题有:(1)如何提取较好的图像特征。(2)如何提高语义分割效率。(3)如何利用物体空间位置、颜色信息来提高像素标记的精度。针对上述问题,本文利用卷积神经网络构建了层次化特征、基于区域的特征,并结合超像素和全连接条件随机场完成图像语义分割。具体工作如下:(1)提出一种基于卷积神经网络层次化特征的图像语义分割方法。将卷积神经网络中多个层的卷积输出上采样到统一尺度并合并起来,构建了层次化特征。这种层次化特征融合了网络浅层中包含的物体结构化信息和网络深层中包含的物体语义信息,所以具有很强的表达能力。通过超像素分割算法可以将图像分割为多个超像素,利用超像素的层次化特征训练分类器,然后将分类结果映射回像素。最后构建包含一元势能和成对势能的全连接条件随机场模型,通过求解相应的能量函数对像素的分类结果进行平滑约束,提高像素标记的区域一致性和连续性。在公共数据集上的实验结果表明,使用层次化特征比单层特征在平均像素精度和平均类精度上都有了明显的提高。(2)提出一种基于特征融合和分类器融合的图像语义分割方法。利用基于区域的网络提取基于区域的特征,这种基于区域的特征包含了更多局部物体细节信息。将包含更多全局信息的层次化特征和包含更多局部信息的区域特征融合得到了融合特征,这种融合特征能更好地用于语义分割。使用多个不同的分类器对超像素进行分类,将分类器结果进行线性加权得到融合结果,弥补了单一分类器分类能力有限的不足。最后通过全连接条件随机场的平滑约束,显著提高了像素标记的精度。在公共数据集上的实验结果表明,特征的融合和分类器的融合对图像语义分割在平均像素精度和平均类精度上都有较好的提升作用。