论文部分内容阅读
视觉单目标跟踪是计算机视觉领域的基本任务之一。现实生活中,各种干扰因素,如遮挡、形变、相似物干扰、分辨率低、背景嘈杂等,导致目标在运动过程中表观形状发生变化,加剧了目标跟踪的难度。近年来,基于相关滤波器(Correlation Filter, CF)和深度学习(Deep Learning)的方法明显改进了跟踪性能。基于相关滤波器的模型具有高效的计算优势,而基于深度学习的方法则学习较强的特征表达能力,有助于提升定位准确度。现有相关滤波器方法或简单使用预训练网络提取深度特征,或采用简单特征选择和特征融合机制结合卷积神经网络(Convolutional Neural Network,CNN)。另一方面,简单相关滤波器模型被嵌入卷积神经网络,但无法发挥改进的相关滤波器模型对边界效应的处理优势,进而无法达到与直接使用深度特征相当的跟踪效果。现有方法在实时性和鲁棒性方面仍存在瓶颈,快速鲁棒的目标跟踪模型仍有待进一步研究。
目标跟踪过程通常由运动模型、特征提取、观测模型和模型更新构成,而其中特征提取和观测模型对跟踪效果有较大影响。由于目标外观的多样性,以及目标在运动过程中外观变化的多样性,给特征表达能力带来巨大挑战。在基于判别式的跟踪模型中,如何设计观测模型,将目标从背景中区分出来,是定位准确的关键。现有的目标跟踪方法,经历了从手工设计特征到深度特征的改进,但在深度特征利用和计算效率方面有待改进。在观测模型方面,近年来,相关滤波器受到重点关注,并被不断改进,但如何设计相关滤波器模型引导的深度学习目标跟踪模型仍有待进一步研究。本文将从特征增强和观测模型两方面展开研究,主要内容包括:
(1)为解决基于支持向量的跟踪模型计算复杂度高,无法满足跟踪实时性要求的缺点,通过结合密集采样,将基于正则化最小二乘模型(Regularized Least Square,RLS)的相关滤波器扩展到基于大间隔分类的密集分类问题。提出了一种基于支持向量的相关滤波器(Support Correlation Filter, SCF)模型和交替迭代优化算法。利用相关滤波器的快速计算机制,和非对称的平方折页损失函数,在保证跟踪实时性的同时,进一步提高分类器对前景和背景的判别能力,改进跟踪效果。
(2)直接使用在大规模静态图像数据集和图像分类任务上训练的网络提取特征,并未考虑对目标跟踪问题中序列图像的适用性。而基于大规模视频数据集训练的模型,通常为提高速度,设计浅层、顺序的CNN特征提取结构,并未充分利用深度特征。基于全卷积孪生网络(Fully-Convolutional Siamese Network,SiameseFC)框架,利用大规模视频数据集,本文引入自顶向下模块(Top-Down Modulation,TDM)进行特征增强学习。通过将顶层语义特征向下传递,指导底层特征的学习和选择,使得网络的单层输出既能捕获细节特征,又包含高层语义信息。针对样本不均衡问题,进一步通过改进的折页损失函数,挖掘困难样本加强深度特征的判别能力和相似性函数的匹配能力。
(3)基于跳跃连接形式的深度特征增强方案,往往需要引入大量参数,为模型训练带来挑战。为同时实现增强顶层特征的表达能力和对非均匀尺度变化的鲁棒性,提出了一种自适应多因子空洞卷积的特征增强方法。在共享卷积参数的前提下,通过控制膨胀因子,提取具有不同感受野大小的特征。进一步引入自适应最大化加权特征融合方案,对具有不同感受野大小的特征进行整合。根据目标尺度自适应地选取对应感受野大小的特征,或根据物体内不同部分的尺度自适应地选取局部特征,以增强特征的表达能力和对非均匀尺度变化的鲁棒性。
(4)为解决基于深度学习的跟踪模型在在线跟踪过程中缺乏模型自适应性的缺点,本文通过定义二层优化问题将背景感知的相关滤波器(Back-aware Correlation Filter,BACF)嵌入CNN,提出了一种相关滤波器模型引导和模特征学习学习想结合的端到端网络结构。为将BACF嵌入CNN,将求解BACF的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)展开得到截断推理模型(更新子网络)。在跟踪过程中,利用前一帧目标信息计算滤波器用于当前帧的目标定位,实现了模型自适应。为增强滤波器的鲁棒性,在损失函数中约束当前帧得到的滤波器在未来帧上仍具有一定的判别能力。训练过程中,使用贪心训练机制,逐阶段训练截断推理模型,然后再进行特征表达和截断预测模型的联合学习。通过联合学习,提高了特征和表观模型的判别能力。
目标跟踪过程通常由运动模型、特征提取、观测模型和模型更新构成,而其中特征提取和观测模型对跟踪效果有较大影响。由于目标外观的多样性,以及目标在运动过程中外观变化的多样性,给特征表达能力带来巨大挑战。在基于判别式的跟踪模型中,如何设计观测模型,将目标从背景中区分出来,是定位准确的关键。现有的目标跟踪方法,经历了从手工设计特征到深度特征的改进,但在深度特征利用和计算效率方面有待改进。在观测模型方面,近年来,相关滤波器受到重点关注,并被不断改进,但如何设计相关滤波器模型引导的深度学习目标跟踪模型仍有待进一步研究。本文将从特征增强和观测模型两方面展开研究,主要内容包括:
(1)为解决基于支持向量的跟踪模型计算复杂度高,无法满足跟踪实时性要求的缺点,通过结合密集采样,将基于正则化最小二乘模型(Regularized Least Square,RLS)的相关滤波器扩展到基于大间隔分类的密集分类问题。提出了一种基于支持向量的相关滤波器(Support Correlation Filter, SCF)模型和交替迭代优化算法。利用相关滤波器的快速计算机制,和非对称的平方折页损失函数,在保证跟踪实时性的同时,进一步提高分类器对前景和背景的判别能力,改进跟踪效果。
(2)直接使用在大规模静态图像数据集和图像分类任务上训练的网络提取特征,并未考虑对目标跟踪问题中序列图像的适用性。而基于大规模视频数据集训练的模型,通常为提高速度,设计浅层、顺序的CNN特征提取结构,并未充分利用深度特征。基于全卷积孪生网络(Fully-Convolutional Siamese Network,SiameseFC)框架,利用大规模视频数据集,本文引入自顶向下模块(Top-Down Modulation,TDM)进行特征增强学习。通过将顶层语义特征向下传递,指导底层特征的学习和选择,使得网络的单层输出既能捕获细节特征,又包含高层语义信息。针对样本不均衡问题,进一步通过改进的折页损失函数,挖掘困难样本加强深度特征的判别能力和相似性函数的匹配能力。
(3)基于跳跃连接形式的深度特征增强方案,往往需要引入大量参数,为模型训练带来挑战。为同时实现增强顶层特征的表达能力和对非均匀尺度变化的鲁棒性,提出了一种自适应多因子空洞卷积的特征增强方法。在共享卷积参数的前提下,通过控制膨胀因子,提取具有不同感受野大小的特征。进一步引入自适应最大化加权特征融合方案,对具有不同感受野大小的特征进行整合。根据目标尺度自适应地选取对应感受野大小的特征,或根据物体内不同部分的尺度自适应地选取局部特征,以增强特征的表达能力和对非均匀尺度变化的鲁棒性。
(4)为解决基于深度学习的跟踪模型在在线跟踪过程中缺乏模型自适应性的缺点,本文通过定义二层优化问题将背景感知的相关滤波器(Back-aware Correlation Filter,BACF)嵌入CNN,提出了一种相关滤波器模型引导和模特征学习学习想结合的端到端网络结构。为将BACF嵌入CNN,将求解BACF的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)展开得到截断推理模型(更新子网络)。在跟踪过程中,利用前一帧目标信息计算滤波器用于当前帧的目标定位,实现了模型自适应。为增强滤波器的鲁棒性,在损失函数中约束当前帧得到的滤波器在未来帧上仍具有一定的判别能力。训练过程中,使用贪心训练机制,逐阶段训练截断推理模型,然后再进行特征表达和截断预测模型的联合学习。通过联合学习,提高了特征和表观模型的判别能力。