论文部分内容阅读
目标跟踪是计算机视觉领域的重要研究方向,备受国内外研究学者的关注。目标跟踪算法有许多应用场景,典型的有:人机的交互、自动驾驶以及智能视频监控等。目标跟踪算法的任务,是在给定目标物体初始状态之后,估计目标在后续视频中的状态。然而,经过多年努力,仍有影响跟踪算法性能的因素,如外形变化、光照变化、遮挡等,这些因素会降低跟踪算法的鲁棒性,因此,对跟踪算法进行更深入的研究十分必要。传统的目标跟踪算法采用相关滤波框架,用手工设计的底层视觉特征对目标表观进行建模,虽然相关滤波利用频域计算使得跟踪速度提升,但手工特征或者浅层分类器提取的特征,仅有有限的对目标表观模型的语义信息预测能力,使得跟踪精度提升缓慢。近年来,随着深度学习技术在计算机视觉领域的广泛应用,目标跟踪逐渐引用深度学习技术中卷积神经网络与残差网络等模型,提取目标更加丰富准确的特征信息,使得目标跟踪算法的性能和鲁棒性得到大幅提升。本文主要研究基于深度学习的目标跟踪算法,利用卷积神经网络搭建端到端的跟踪框架,对视频序列中的目标状态进行预测。并且进一步研究了通过使用孪生网络和残差网络,学习和迁移图像特征,构建鲁棒目标表观特征,结合相关滤波对目标进行实时跟踪。在端到端的深度学习跟踪框架中,采用了包含三层卷积与三层全连接的分类网络模型,并通过两种方法对其进行优化:(1)在模型中添加空间金字塔池化网络(SPPNet)处理多尺度的图片输入,使得模型适应目标物体的尺度变化;(2)将模型低层卷积提取的表观特征与高层卷积提取的语义特征相结合,对目标进行建模,提高对目标物体识别的准确性。基于孪生网络与相关滤波相结合的研究中,通过在网络模型中加入Attention机制,对提取的深度特征赋予不同的权重,使得算法更好地适应跟踪场景。最后本文搭建出基于端到端的深度模型跟踪框架与结合深度特征的相关滤波框架,并通过上述方法进行优化实验,算法性能与baseline相比,在不降低跟踪速率的前提下精度更高、鲁棒性更好。