论文部分内容阅读
伴随着汽车主动安全和智能化市场需求的不断增加,越来越多的企业和研究机构开始致力于自动驾驶系统的研究和开发。自动驾驶系统中的环境感知技术作为自动驾驶车辆的眼、耳,为自动驾驶的行为决策系统提供支撑作用。在自动驾驶环境感知技术中,对车辆摄像头所采集的实时视频数据进行快速、准确的语义分割是其中至关重要的技术。当前自动驾驶场景语义分割的研究主要集中在提高语义分割精度上,不能满足自动驾驶车辆对驾驶场景快速、准确语义分割的要求。鉴于此,本文的工作围绕自动驾驶场景下的视频语义分割研究展开,重点解决对语义分割速率的提升,同时兼顾模型对语义分割精度的优化,实现了对自动驾驶场景下的视频数据快速准确的语义分割。本文的主要工作内容和创新点如下:(1)提出了一种基于光流特征融合的自适应视频语义分割模型。该模型采用光流特征融合的方法,将视频流中大部分非关键帧获得高层语义特征由传统的复杂、缓慢的深度卷积网络,转化为光流特征融合的方法,节约了模型计算时间,提升了视频流语义分割的速率。同时该模型还针对视频流中关键帧的选择问题,通过一个关键帧更换决策网络,使视频语义分割的关键帧选择与视频流内容的变化程度自适应地发生变化,实现了对自动驾驶场景下视频数据快速、准确的语义分割。(2)提出了一种基于注意力机制的视频语义分割模型。基于(1)中所设计的模型,帧对视频帧图像在高层语义特征提取过程中,未考虑位置依赖和通道依赖两个因素,采用了注意力机制的思想,在关键帧高层语义特征的提取中增加了注意力模块,以捕捉视频帧的位置依赖性与通道依赖性,丰富了高层次语义信息。在保证视频语义分割率不变的情况下,增强了模型对数据中细小类别和相似类别的敏感性,提高了模型的分割精度。(3)本文设计并实现了一套自动驾驶下的视频语义分割模拟系统。以本文所提出的视频语义分割模型为基础,设计了支持实时视频语义分割系统的整体框架和功能模块,并对系统涉及的主要功能模块进行了实现。