论文部分内容阅读
深度学习在静态图像中的研究已取得重大进展,其在视频目标检测领域中的研究才刚刚起步。随着视频数据的便捷获取和计算机算力的提升,视频目标检测作为视频理解的基础任务是计算机视觉领域亟待解决的问题之一。视频数据相对于静态图像具有数据量大,冗余性高,时序之间具有关联性等特点,且数据中存在遮挡、运动模糊、视频失焦和目标奇异姿态等独特挑战。现有方法一般从视频数据冗余性和时序关联性着手,通过冗余性加快视频检测的速度,或者通过时序关联性提高视频目标检测的精度。本文主要利用视频数据的时序相关性,通过时序特征融合提高难分图像的检测质量。同时,通过改进视频目标检测的网络结构,提高检测速度,以期实现速度与精度的平衡。针对上诉思想,本文主要做了以下三个工作:1.提出了一种基于Bi-ConvGRU(双向卷积门控循环神经单元)的视频目标检测方法。本方法将视频序列中各帧划分为当前帧和参考帧,当前帧采用特征提取网络得到对应当前帧特征,参考帧结合光流得到光流估计特征,通过Bi-ConvGRU学习当前帧和当前帧估计特征之间的联系,采用嵌入网络求解权重对Bi-ConvGRU结果进行加权融合。本方法,通过Bi-ConvGRU为当前帧特征引入更多的参考帧信息,提高了当前帧特征质量。2.提出了一种基于空间位置注意力机制的时序特征融合方法。本方法改进了方法1中光流引导特征传播的方向,减少了特征提取网络提特征的过程,但同时引入了估计特征与当前帧特征之间位置未对齐的问题。本方法设计了一个空间位置注意力机制替代了方法1中的嵌入网络,实现了特征空间位置对齐,同时减少了网络的参数量,在精度下降不大的情况下提升了检测速度。3.提出了一种基于非局部多尺度时序特征融合的轻量化网络。本方法舍去了方法1、2中引入的Bi-ConvGRU结构,减少了时间开销,采用非局部模块进行时序特征之间的融合,同时将后端检测网络改为了更加轻量的结构,使网络能在4G显存的机器中运行。为了提高网络对不同尺度的鲁棒性,本方法还尝试引入了浅层、深层特征进行融合,提高了对多尺度图像的鲁棒性。本方法组合以上结构,较好地实现了检测精度与速度之间的平衡。