论文部分内容阅读
目标跟踪是根据视频图像序列上下文信息,对第一帧中的目标进行定位并建模处理,进而在后续帧中进行连续跟踪的任务。目标跟踪在智能交通监管、公共安全监控、自动驾驶等领域具有重要用途。深度学习相关方法的出现,为目标跟踪的研究提供了更多选择。尽管近些年很多新算法在目标跟踪问题上取得了巨大的进步,但复杂背景、光照变化、遮挡、形变等仍然是影响目标跟踪精度和准确度的主要因素。
近年来,基于深度学习方法的目标跟踪算法在解决目标跟踪难题方面有着巨大的突破,其在OTB(2013-2015)、VOT等一系列公开数据集上取得了优异的跟踪性能。但是由于存在缺失训练数据、实际场景复杂等问题,深度学习技术相关的目标跟踪算法还不能达到理想的跟踪效果。如何在深度网络实现强大的表征功能所需要的计算量和目标跟踪的实时性要求之间取得适当的平衡,是当前目标跟踪算法研究的难点所在。通过研究深度学习相关的目标跟踪算法,本文利用卷积神经网络来构建实时跟踪框架,预测视频序列中的目标位置,提出了两种有效的目标跟踪算法。本文的主要创新点包括:
(1)针对智能交通环境下车辆目标跟踪的遮挡和相似性问题,本文提出了一种基于多域卷积神经网络的目标跟踪算法。首先,利用Mask R-CNN算法分割出所要跟踪的目标,清晰表达前景和背景区域。其次,输入图像并以多域学习的方式进行网络训练,使各卷积层能够学习到单个视频序列中跟踪目标的共性特征,以此提高算法的特征提取能力。最后,将卷积层的参数固定下来,在间隔周期内从之前的序列图像中提取出目标相关特征,从而确保对跟踪模型的全连接层进行完全更新,使算法实现实时跟踪。算法还通过自适应运动目标自身的外观变化,来提高跟踪器的准确率与成功率。
(2)针对深层网络无法在目标跟踪任务中应用的问题,本文以孪生网络为基础,结合残差网络提出新的运动目标跟踪算法。首先,将一对图片输入模型,算法通过孪生网络来计算图片对中的目标模板与给定搜索区域间的相似度,保留相似度最高区域并将其记作所跟踪目标的位置。然后,通过将传统特征与高层卷积提取的语义特征相融合,互补语义信息。同时,在训练阶段引入元学习来解决训练数据不足的问题,通过加权互相关来克服孪生网络的局限性,从而使该模型可以在较少的数据上取得更加鲁棒的效果。最后,算法通过降低模型拟合程度,提高对目标变化的适应性。
(3)针对卷积操作仅在局部近邻区域上提取特征,缺少全局信息的问题,本文引入挤压和激励模块并对其进行改进。首先,使用注意力机制挖掘出视频帧中的位置信息,将其与卷积神经网络做级联操作。然后,引入一个挤压和激励结构单元,对图片通道之间的关系进行建模,自适应匹配图片通道的相关特征响应。最后,融合通道特征信息,提高整个网络的表示能力和特征表达能力。模块还通过学习全局信息选择性地增强有用的功能并抑制无用功能,从而使得网络能够执行功能重新校准。
近年来,基于深度学习方法的目标跟踪算法在解决目标跟踪难题方面有着巨大的突破,其在OTB(2013-2015)、VOT等一系列公开数据集上取得了优异的跟踪性能。但是由于存在缺失训练数据、实际场景复杂等问题,深度学习技术相关的目标跟踪算法还不能达到理想的跟踪效果。如何在深度网络实现强大的表征功能所需要的计算量和目标跟踪的实时性要求之间取得适当的平衡,是当前目标跟踪算法研究的难点所在。通过研究深度学习相关的目标跟踪算法,本文利用卷积神经网络来构建实时跟踪框架,预测视频序列中的目标位置,提出了两种有效的目标跟踪算法。本文的主要创新点包括:
(1)针对智能交通环境下车辆目标跟踪的遮挡和相似性问题,本文提出了一种基于多域卷积神经网络的目标跟踪算法。首先,利用Mask R-CNN算法分割出所要跟踪的目标,清晰表达前景和背景区域。其次,输入图像并以多域学习的方式进行网络训练,使各卷积层能够学习到单个视频序列中跟踪目标的共性特征,以此提高算法的特征提取能力。最后,将卷积层的参数固定下来,在间隔周期内从之前的序列图像中提取出目标相关特征,从而确保对跟踪模型的全连接层进行完全更新,使算法实现实时跟踪。算法还通过自适应运动目标自身的外观变化,来提高跟踪器的准确率与成功率。
(2)针对深层网络无法在目标跟踪任务中应用的问题,本文以孪生网络为基础,结合残差网络提出新的运动目标跟踪算法。首先,将一对图片输入模型,算法通过孪生网络来计算图片对中的目标模板与给定搜索区域间的相似度,保留相似度最高区域并将其记作所跟踪目标的位置。然后,通过将传统特征与高层卷积提取的语义特征相融合,互补语义信息。同时,在训练阶段引入元学习来解决训练数据不足的问题,通过加权互相关来克服孪生网络的局限性,从而使该模型可以在较少的数据上取得更加鲁棒的效果。最后,算法通过降低模型拟合程度,提高对目标变化的适应性。
(3)针对卷积操作仅在局部近邻区域上提取特征,缺少全局信息的问题,本文引入挤压和激励模块并对其进行改进。首先,使用注意力机制挖掘出视频帧中的位置信息,将其与卷积神经网络做级联操作。然后,引入一个挤压和激励结构单元,对图片通道之间的关系进行建模,自适应匹配图片通道的相关特征响应。最后,融合通道特征信息,提高整个网络的表示能力和特征表达能力。模块还通过学习全局信息选择性地增强有用的功能并抑制无用功能,从而使得网络能够执行功能重新校准。