论文部分内容阅读
图像语义分割是给图像中每个像素点都指定一个语义类别标签,它是物体检测与识别的基础,可应用于多个领域,包括:无人驾驶中环境场景分割、国防安全中雷达图像分割和医学检测中器官图像分割等。随着深度学习的大规模应用,计算机视觉领域普遍采用深度卷积神经网络(Deep Convolutional Neural Network,DCNN)来进行图像分类、物体检测和识别。DCNN在图像分类任务中取得巨大成功,最新的网络在该任务上分类准确率(96.43%)已超过人类水平(94.9%)。近年来,研究人员尝试将DCNN的分类能力应用于图像语义分割,设计出基于编、解码结构的分割网络,编码过程中提取物体高层次特征,解码过程中恢复物体轮廓。由于编码时下采样操作会损失图像信息,导致解码时上采样还原物体轮廓时效果较差。针对像素级分割任务,本文设计了一个基于超像素和高斯核函数的全连接密集型条件随机场模型(Probabilistic Superpixel-based dense Conditional Random Field,PSP-CRF),在DCNN计算的像素概率基础上,通过CRF将图像局部结构先验信息进行融合。本文从两个方面对图像语义分割展开深入研究:(1)基于超像素和高斯核函数的全连接密集型CRF模型研究:为了构建PSPCRF模型,首先,本文使用DCNN对图像做处理以获取分数映射图,每个映射图的尺寸与原图像相同,按照标注类别序排列,对应着图像所有像素点标签类属的概率(前端分类器模块)。其次,基于图像超像素分割结果,结合前端分类器计算的像素概率分布,计算出超像素标签类属的概率分布,并设计了一个基于熵的重定义策略,对分割有误的超像素进行调整。最后,以超像素为随机场图的节点,利用超像素的类属概率计算一元势函数,通过超像素高维特征获取二元势函数,结合一元和二元势函数来构建密集型CRF模型,将深度学习分类器的结果和超像素局部信息相融合,辅助最终决策(后处理模块)。针对PSP-CRF模型,本文设计两种求解算法:基于平均场理论的推断算法和基于线性规划的推断算法,对模型做最小化计算,并对比验证两者效果。(2)基于平均场推断算法的端对端网络模型研究:为把PSP-CRF与前端分类器网络集成起来,形成整体端对端的效果,本文对神经网络和CRF建模求解的融合进行了探索和研究,具体包括:对基于平均场理论的推断算法进行分解,将其迭代实现过程设计为循环神经网络结构(CRF-RNN),将该结构和前端卷积神经网络进行合并,实现了前端分类器网络模块和后端条件随机场的有机融合。针对PSP-CRF模型和端对端网络模型,本文基于PASCAL VOC 2012数据集平台对两个模型进行了详细测试与分析,具体包括:对PSP-CRF模型的测试与分析;不同推断算法的测试与分析;各种因素(高斯核参数、超像素参数等)对算法结果影响的测试与分析;前后端融合的端对端网络模型的测试与分析。实验结果表明,本文设计的基于深度学习和条件随机场的分割算法,可将图像分割指标提升至82%,同时计算效率提升了47%。