论文部分内容阅读
场景感知是计算机科学、智能科学和机器人学等学科关注的重要任务之一,在无人驾驶、人机交互、卫星遥感等领域都具有广泛的应用价值。语义分割旨在从像素层面上划分场景的具体类别,然后对不同类别赋予特定的语义。由于具有语义丰富、定位精准和效果直观的特点,语义分割已成为场景感知任务的主要解决手段之一。然而,随着数据规模的扩大与场景复杂度的增加,当前面向复杂场景的语义分割方法仍存在计算低效、参数量大、实时性低等不足。从科学研究的发展趋势与用户的日常实际需求来看,如何在有限的存储与计算资源的条件下,利用语义分割技术精准、快速地实现复杂场景中多尺度物体的识别、定位与目标之间的上下文解析是场景感知领域的研究热点与难点,具有重要的科学价值与实践意义。因此,本文以提升模型的综合性能为研究切入点,结合语义分割相关理论和技术,构建面向复杂场景下精准高效的语义分割模型,实现了分割精度、推理速度、参数存储与计算复杂度综合性能的提升。研究内容主要包括:
1.提出一种基于密集连接与注意力机制的语义分割方法。首先构建一种基于混合扩张卷积的密集连接块以提取密集的语义信息。同时设计一种基于注意力机制的多尺度模块来联合表征全局特征与多尺度局部特征。然后将上下文信息转化为一组权重向量反传至初始信息中进行特征校对以获得最终输出。
2.提出一种基于上下文感知与特征融合的语义分割方法,该方法主要包括强化空间金字塔池化模块与分解残差块。首先在初始空间池化金字塔模块中增加一组不同采样尺度的分解卷积层以提升模型对上下文信息的编码效率。其次构建轻量级分解残差块以加强高低阶信息的关联度并降低计算成本。最后融合多尺度语义信息与空间细节信息以获得最终输出。
3.提出一种基于上下文集成与特征校对的语义分割方法,该方法主要包括长跳跃特征校对模块与多尺度上下文集成模块。首先在高低阶信息层之间构建长跳跃特征校对模块以促进空间细节信息在网络中传导。然后设计轻量级密集语义金字塔块充分采样目标附近子域信息以提取密集的上下文特征,密集语义金字塔块在多尺度上下文集成模块中通过级联方式堆叠以降低计算量并扩大感受野。
本文在Cityscapes、CamVid和Helen三个公开数据集上进行实验验证,其中基于密集连接与注意力机制的方法比FCN方法与SegNet方法具有更高的精度和效率;基于上下文感知和信息融合的方法比FCN方法与DeepLabV2方法实现了更优的精度与效率均衡;基于上下文集成与特征校对的方法比当前主流语义分割方法实现了分割精度、推理速度、参数存储以及计算复杂度的综合性能提升。
1.提出一种基于密集连接与注意力机制的语义分割方法。首先构建一种基于混合扩张卷积的密集连接块以提取密集的语义信息。同时设计一种基于注意力机制的多尺度模块来联合表征全局特征与多尺度局部特征。然后将上下文信息转化为一组权重向量反传至初始信息中进行特征校对以获得最终输出。
2.提出一种基于上下文感知与特征融合的语义分割方法,该方法主要包括强化空间金字塔池化模块与分解残差块。首先在初始空间池化金字塔模块中增加一组不同采样尺度的分解卷积层以提升模型对上下文信息的编码效率。其次构建轻量级分解残差块以加强高低阶信息的关联度并降低计算成本。最后融合多尺度语义信息与空间细节信息以获得最终输出。
3.提出一种基于上下文集成与特征校对的语义分割方法,该方法主要包括长跳跃特征校对模块与多尺度上下文集成模块。首先在高低阶信息层之间构建长跳跃特征校对模块以促进空间细节信息在网络中传导。然后设计轻量级密集语义金字塔块充分采样目标附近子域信息以提取密集的上下文特征,密集语义金字塔块在多尺度上下文集成模块中通过级联方式堆叠以降低计算量并扩大感受野。
本文在Cityscapes、CamVid和Helen三个公开数据集上进行实验验证,其中基于密集连接与注意力机制的方法比FCN方法与SegNet方法具有更高的精度和效率;基于上下文感知和信息融合的方法比FCN方法与DeepLabV2方法实现了更优的精度与效率均衡;基于上下文集成与特征校对的方法比当前主流语义分割方法实现了分割精度、推理速度、参数存储以及计算复杂度的综合性能提升。