论文部分内容阅读
视觉目标跟踪是计算机视觉中一个基础且重要的研究领域,在智能视频监控、人机交互、虚拟现实、视觉导航和医学诊断等诸多领域有着广泛的应用。在视频第一帧中给定任意感兴趣的目标的初始位置和大小后,视觉目标跟踪旨在估计该目标在后续视频帧中的位置和大小。国内外研究者对视觉目标跟踪问题已经开展了较多的研究,并在简单的场景中取得了较好的跟踪精度,如静态场景下的刚体目标跟踪。然而,在实际应用中,被跟踪目标通常会处于复杂场景中,存在着包括遮挡、变形、旋转、尺度变化、快速运动、运动模糊、光照变化和背景杂乱等一种或多种干扰因素,这增加了目标外观建模的难度,使得如何准确、高效、鲁棒地跟踪目标仍然是一个具有挑战性的问题。近年来,针对复杂场景下的视觉目标跟踪已经开展了一些研究,并提出了相应的跟踪算法。本文在分析已有跟踪算法的基础上,结合相关滤波(Correlation Filter)和深度学习技术对复杂场景中的视觉目标跟踪开展了深入研究。本文的具体工作如下:1、结合分块思想和相关滤波技术,提出了一种基于全局和局部特征的多相关滤波协同跟踪算法KCF-HR。首先,设计了一种衡量图像块置信度的评价指标,并基于此提出了一种局部模型,用于多可信子块的融合,减少了现有基于分块思想的跟踪算法所引入的背景或遮挡物等干扰信息。然后,进一步考虑到仅仅依靠目标的局部信息往往会忽略鉴别力更强的全局信息以及全局和局部信息之间的交互,提出了一种全局模型来估计目标的位置和大小,并适时重置局部不可信子块以确保局部可信子块的数量和可信度。基于提出的局部模型和整体模型,最终构建了KCFHR跟踪算法。实验结果表明,该算法可以有效地提升遮挡、变形和旋转等干扰因素下的跟踪精度。2.提出了一种尺度自适应的相关滤波跟踪算法CFSA。首先,提出一种目标候选框生成方法以生成更适合相关滤波跟踪的候选边界框,降低了现有基于相关滤波的算法因被跟踪目标到达待搜索区域的边界附近或者其部分或全部已经移出了待搜索区域而导致跟踪失败的可能性。然后,提出了一种基于目标检测的尺度估计方法,在保证跟踪精度的基础上显著提升了目标尺度估计方法的时间效率。结合以上两种方法最终提出了CFSA跟踪算法。实验结果表明,该算法在目标发生快速运动和尺度变化时,其跟踪精度优于所对比的多个先进的跟踪算法,并且能够以较高的帧速率运行。3.将相关滤波和卷积神经网络相结合,提出了一种基于自适应加权多层卷积神经网络特征的相关滤波跟踪算法AWMF-CFNet。首先,提出了一种多尺度特征提取网络,可以同时获取较高卷积层的语义特征和较低卷积层的空间特征。然后,提出了一种结合了整体—部分思想、空间注意力机制和通道注意力机制的自适应特征加权网络,克服了现有算法的特征映射中所有通道或区域权重相同的问题,增强了特征映射的外观表征能力。基于上述的特征提取网络和特征加权网络最终提出了AWMF-CFNet跟踪算法。实验结果表明,该算法在目标处于运动模糊、光照变化等场景时的跟踪精度优于所对比的多个先进的跟踪算法。4.针对基于卷积神经网络的跟踪算法因其网络参数在线更新而导致时间效率较低的问题,提出了一种基于区域的孪生网络跟踪算法RSNet,将视觉目标跟踪视为求解目标相似度问题,在离线学习后其网络参数不需要在线更新即可实现目标的准确跟踪。首先,提出了一种多尺度特征融合网络,能够将多尺度的分层卷积神经网络特征在多个并行网络之间不断交换和合并,得到充分融合了深层语义信息和浅层空间信息的特征映射。然后,提出了一种基于分块思想的特征整合网络,该网络能够生成区域敏感的多组特征映射,提升特征映射的外观表征能力。将上述特征融合网络和特征整合网络整合到一个孪生网络中,提出了RSNet跟踪算法。实验结果表明,该算法在多种干扰因素下取得了与基于卷积神经网络的跟踪算法相当的跟踪精度的同时,显著提高了算法的时间效率。