论文部分内容阅读
语义分割是计算机视觉中最基本的任务之一,对图像理解起着关键作用,并且在许多实际应用中有重大影响,例如自动驾驶、机器人和医疗图像诊断等。近年来,虽然基于深度卷积神经网络的语义分割研究取得了显著进步,但还是存在不少挑战。本文基于深度学习技术,从两个方面研究了基于深度卷积网络的语义分割模型,分别是通过融合上下文语义信息和空间信息提高语义分割准确度的研究,以及通过弹性特征金字塔模块减少语义分割的时间复杂度、达到实时语义分割的研究。本文所做工作具体阐述如下:首先,本文对当前基于深度学习的语义分割算法展开详细地概述,细致地介绍了图像语义分割常用的深度模型框架。接着,按照提升网络感受域的方法、基于特征融合的方法、基于注意力机制的方法和基于神经网络架构搜索的方法这四个维度,对当前最有效的语义分割方法进行论述。最后阐述了未来最有前景的实时语义分割方法。通过对当前语义分割方法进行回顾,能够清晰地了解语义分割研究的发展历程,以及为相关的研究人员启发研究思路。其次,当前图像语义分割研究基本围绕如何提取有效的语义上下文信息和还原空间细节信息两个因素来设计更高效算法。为了提升网络的语义表达能力,同时建立像素点之间的空间位置关系,本文提出了一种新的基于上下文和浅层空间编解码网络的语义分割解决方案。在编码端采用二分支策略,其中上下文分支设计了一个新的语义上下文模块来获取高质量的语义上下文信息,而空间分支设计成反U型结构,并结合链式反置残差模块,在保留空间细节信息的同时提升语义信息。解码端,本文设计了优化模块对融合后的上下文信息与空间信息进一步优化。所提出的方法在三个基准数据集CamVid、SUN RGB-D和Cityscapes上取得了有竞争力的结果。最后,高质量的语义分割模型需要大量的计算资源,为了实现实时性应用,本文提出了一种特征编码融合网络,为了能够编码多尺度特征信息同时减少内存开销,设计了弹性特征金字塔模块作为特征提取网络的基础构建模块。接着在特征提取网络末端设计了多路径语义模块以优化语义特征的学习以及梯度的反向传播。最后通过双注意力融合模块有选择性地融合不同层级的特征。所提出的方法在CamVid和Cityscapes数据集上使用较少的参数和更快的处理速度完成了城市道路场景的语义分割任务。