论文部分内容阅读
目前智慧城市的建设正在如火如荼地进行之中,智能监控作为其中不可或缺的组成部分,为计算机视觉的发展起到了一定的推进作用。目标跟踪任务是计算机视觉领域的基石,在进一步提升智能监控系统的可靠性上扮演着重要角色,能够促进平安社会的建设。近年来,受益于各种传统机器学习和深度学习理论的快速发展,目标跟踪已经取得了很多里程碑式的研究成果,但是其需要应对的挑战性问题依然亟待解决。一方面,对于跟踪准确性的提升,学习鲁棒的目标特征表示非常关键;另一方面,目标跟踪在实际应用中需要具备高效的运行效率,跟踪速度也是衡量跟踪性能的一个重要指标。本文针对上述问题展开研究,提出了两种目标跟踪方法,旨在快速学习目标的鲁棒特征表示。本文的主要工作有以下两个方面。由于目前大多数的目标跟踪都使用边界框来定位目标位置,这不可避免的在目标描述时引入了边界框内的背景信息,导致模型更新时会受到噪声影响。因此,本文提出一种新颖的基于分块的吸收马尔可夫链算法,学习用于目标跟踪的鲁棒特征表示。具体来说,首先将目标边界框划分成网格状的均匀图像块,并以图像块为结点,采用从稀疏到完全的方法学习图的稠密亲和性矩阵,将其应用于吸收马尔可夫链。在吸收马尔可夫链中,转移结点到吸收结点的吸收时间可以作为两种结点之间的相似性度量标准,因此基于先验假设分别设置前景种子点和背景种子点作为吸收结点后,通过计算转移结点的吸收时间能够获得目标边界框中图像块的前景概率分布和背景概率分布。最后,结合两种概率分布计算图像块的前景权重,通过图像块的特征加权来降低目标边界框中背景噪声在目标描述时的干扰,从而学习鲁棒的目标特征表示,并输入到结构化支持向量机的跟踪框架中进行跟踪。此外,为了提高权重计算的准确性,本文还对前景种子点进行了优化,以剔除先验假设中不可靠的前景种子点。在公共基准数据集上的实验验证了该方法的有效性。基于深度学习的目标跟踪方法通常仅使用深度特征中的深层语义信息来定位跟踪目标,忽略了浅层深度特征所保留的较多细节信息,这可能会导致相似目标无法区分或者目标对象定位不准确的问题。因此,本文提出了一种多层次特征聚合孪生网络,有效融合多层次且互补的深度特征,在保证一定跟踪精度的同时能够实现实时跟踪。具体来说,首先在特征提取时引入轻量级的多层次特征聚合模块,在不增加较多计算负担的前提下将多层次的局部特征和全局特征以相同的分辨率聚合到统一空间中;其次,利用孪生网络的结构框架来学习目标模板区域和候选区域的相似度,将搜索区域中与模板区域最为相似的候选区域作为当前帧预测的目标位置。在公共基准数据集上的实验表明本文利用多层次特征聚合实现了鲁棒的目标特征表示,并通过端到端的训练构建了一个能够平衡跟踪精度与跟踪速度的孪生网络跟踪器。