论文部分内容阅读
人体目标跟踪是计算机视觉的重要研究方向,广泛应用于智能视频监控、智能交通系统、机器人、自动驾驶等领域,具有极高的研究价值。计算机视觉领域的深度学习方法,具有自主学习目标特征、准确度高、鲁棒性强等优点。但是,基于深度学习的目标跟踪仍然面对首帧训练数据不足、各种内外部因素干扰、实时性要求等问题。因此,本文针对人体目标检测和目标跟踪算法进行了研究,研究工作如下:(1)针对当前主流的人体目标检测算法Faster R-CNN,在处理多尺度问题时精度不足,网络运行效率有待提升等问题,提出基于CNN的多尺度多人目标检测方法。将FPN特征金字塔分别与Faster R-CNN的两个阶段进行结合,得到多尺度RPN和多尺度人体检测器。权衡RPN阶段正负锚点数量,保证网络高效、稳定运行。提出使用多次NMS,代替一次NMS,加快网络运行速度。调整锚点纵横比例,并对整体网络进行了一系列优化。提出的算法模型在标准数据集PETS 2009,Caltech,和INRIA上经过端到端训练得到,实验结果表明,提出方法的平均精确度显著提高。(2)针对当前主流的目标跟踪算法SiamMask提取目标的特征信息丰富度、深度欠佳,网络运行效率有待提升,在大型数据集上的训练速度慢等问题,提出特征融合与训练加速的高效目标跟踪。加深主干网络的参考特征层级,减少下采样,融合多个层级的参考特征图,从而提取目标更加深度、丰富的语义信息。经过深度互相关操作得到RoWs,在其中构建RPN网络,通过权衡正负锚点的数量比,使孪生网络性能更加高效、稳定。多个大型数据集训练孪生网络时,使用均匀滑动漂移采样,代替随机漂移采样算法,从而在抑制中心偏置现象的同时,显著地加快了孪生网络训练速度。在目标跟踪基准VOT2018上的评估实验结果表明,与所有参考的主流跟踪算法相比,提出的跟踪算法具有最佳性能。(3)将本文人体目标检测和目标跟踪算法相结合,实现完全自动的人体目标跟踪。首先对视频首帧使用本文人体目标检测方法,精确检测人体目标所在区域。将首帧人体区域坐标送入本文目标跟踪算法,对人体目标进行逐帧的跟踪。在VOT2018人体目标视频序列上的评估实验表明,与所有参考的跟踪算法相比,本文算法具有最优性能。