论文部分内容阅读
视觉目标追踪是计算机视觉领域的一项基础性研究,其应用场景包括自动驾驶、人机交互、智能视频处理等。尽管对于视觉目标追踪的研究已经取得了很大的进展,但它仍是一个颇具挑战性的问题。其挑战性在于如何依据目标的一个初始状态,来估计后续视频帧中会发生各种变化的目标的状态。本文结合追踪任务的特性,按照先在线信息挖掘和应用后离线先验信息应用的研究路线,从追踪框架的表观模型和决策模型着手,对以下四个问题进行了研究。首先,有效表征各种变化的表观模型的构建问题。目标的表观模型既需要能够识别发生变化的目标,又需要区分目标和与目标相似的背景物体。其次,追踪中的遮挡问题。目标遮挡是追踪场景中常见且容易导致追踪失败的一个问题。再次,在线模型更新中的误差累积问题。在线更新能够对目标新出现的状态进行建模,从而有助于实现对于目标的长期、稳定的追踪。然而在线更新容易带来误差累积问题,进而导致追踪的失败。最后,序列信息在深度学习框架中的应用问题。直接将检测模型用于追踪任务虽然取得了一定的效果提升,但是追踪任务所特有的序列信息没有被有效利用。针对上述四个问题,本文从表观模型和决策模型入手,按照在线信息和离线先验信息挖掘和应用的思路进行了研究。本文的研究内容包含以下五个部分:
(1)针对单一特征无法有效表征发生多种变化的目标的问题,提出一种基于最小化相对熵的多特征表观模型,提升追踪算法的鲁棒性。该方法研究通过联合多种具有互补性的特征,构建了一个更加鲁棒的特征模型;通过最小化相对熵的多视角学习模型,来为确保多特征融合的有效性。在实验设计上,该模型使用能够解决形变、旋转问题的颜色直方图特征和能够解决光照变化、尺寸变化的Histogram of Oriented Gradient(HOG)特征以及灰度特征来构建多特征模型。不同于常见的多特征融合方法,该部分研究选择了具有互补性的特征,并且提出了一种有效的基于多视角学习的融合机制。通过消融实验分析和与多种算法的实验对比,验证了其在多个数据集上的性能,并论证其在追踪算法鲁棒性方面的提升效果。
(2)针对预训练分类网络的深度特征存在的信息冗余、空间信息不足的问题,提出了一种具有目标感知能力的追踪算法。该算法以卷积神经网络反向传播的梯度作为指导信息,从预训练的分类卷积网络中生成能更有效表征目标和对目标尺寸变化敏感的特征;通过分别构建一个岭回归损失和一个排序损失,来获取对目标有强烈响应的特征和对目标尺寸变化敏感的特征。在实验方面,通过可视化对比原始特征和生成特征,论证了生成模型的性能和效果;通过详细的消融实验分析,验证了各个模块的有效性;与其它方法的比较,展示了其在运行速度和追踪精度方面的性能。
(3)针对遮挡的产生规律,提出了一种基于多实例学习思想和支持向量机分类器的遮挡检测模型;并在遮挡过程的不同阶段,调整生成模型和判别模型的权重,来联合地使用这两种模型的优势进行追踪。该方法在遮挡发生初始阶段,通过生成模型来对局部遮挡的目标进行准确定位;在遮挡消失阶段,判别模型能够检测出从遮挡中恢复的目标,从而防止追踪漂移问题的发生。通过在多个含有大量遮挡序列上的评测,展示了所提方法在解决遮挡问题方面的效果;并与其他方法在多个测试序列上进行对比,验证该方法的适用范围。
(4)针对在线更新中噪音样本所带来的误差累积问题,构建一种基于双边界分类器的决策模型。该模型通过建模同一目标不同表观的区别,来感知目标的表观特征变化;通过建模目标与背景样本之间的区别,来抵抗背景干扰物的影响。在线更新阶段,双边界模型通过捕捉目标新出现的表观特征,并且去除冗余的目标样本和含有噪音的目标样本,为在线更新模型提供准确、具有丰富表观特征的训练样本。这抑制了在线更新中的误差累积问题,提高了在新更新的效率。该部分研究在孪生网络框架下,利用双边界模型生成的模板集,实现了对变化目标的有效追踪。通过消融实验分析和与其他方法的对比试验,验证了该方法各个模块的有效性以及其对在线更新效果的提升。
(5)针对基于检测的深度追踪框架没有使用追踪序列信息的问题,提出一种基于最大后验目标状态估计的自适应Region Proposal Network(RPN)决策模型。该模型通过一个基于孪生网络的目标状态观测模型来生成对当前目标状态的观测;利用最大后验概率来估计目标的真实状态;并根据估计的目标状态,对RPN模型中的锚框和特征模型进行相应的调整,使其能够更有效地服务于目标的识别和定位。在实验方面,交叉实验对比验证了各个模块的有效性;与其它方法以及基于检测的追踪方法的对比,验证了该方法在利用序列信息方面的有效性。
(1)针对单一特征无法有效表征发生多种变化的目标的问题,提出一种基于最小化相对熵的多特征表观模型,提升追踪算法的鲁棒性。该方法研究通过联合多种具有互补性的特征,构建了一个更加鲁棒的特征模型;通过最小化相对熵的多视角学习模型,来为确保多特征融合的有效性。在实验设计上,该模型使用能够解决形变、旋转问题的颜色直方图特征和能够解决光照变化、尺寸变化的Histogram of Oriented Gradient(HOG)特征以及灰度特征来构建多特征模型。不同于常见的多特征融合方法,该部分研究选择了具有互补性的特征,并且提出了一种有效的基于多视角学习的融合机制。通过消融实验分析和与多种算法的实验对比,验证了其在多个数据集上的性能,并论证其在追踪算法鲁棒性方面的提升效果。
(2)针对预训练分类网络的深度特征存在的信息冗余、空间信息不足的问题,提出了一种具有目标感知能力的追踪算法。该算法以卷积神经网络反向传播的梯度作为指导信息,从预训练的分类卷积网络中生成能更有效表征目标和对目标尺寸变化敏感的特征;通过分别构建一个岭回归损失和一个排序损失,来获取对目标有强烈响应的特征和对目标尺寸变化敏感的特征。在实验方面,通过可视化对比原始特征和生成特征,论证了生成模型的性能和效果;通过详细的消融实验分析,验证了各个模块的有效性;与其它方法的比较,展示了其在运行速度和追踪精度方面的性能。
(3)针对遮挡的产生规律,提出了一种基于多实例学习思想和支持向量机分类器的遮挡检测模型;并在遮挡过程的不同阶段,调整生成模型和判别模型的权重,来联合地使用这两种模型的优势进行追踪。该方法在遮挡发生初始阶段,通过生成模型来对局部遮挡的目标进行准确定位;在遮挡消失阶段,判别模型能够检测出从遮挡中恢复的目标,从而防止追踪漂移问题的发生。通过在多个含有大量遮挡序列上的评测,展示了所提方法在解决遮挡问题方面的效果;并与其他方法在多个测试序列上进行对比,验证该方法的适用范围。
(4)针对在线更新中噪音样本所带来的误差累积问题,构建一种基于双边界分类器的决策模型。该模型通过建模同一目标不同表观的区别,来感知目标的表观特征变化;通过建模目标与背景样本之间的区别,来抵抗背景干扰物的影响。在线更新阶段,双边界模型通过捕捉目标新出现的表观特征,并且去除冗余的目标样本和含有噪音的目标样本,为在线更新模型提供准确、具有丰富表观特征的训练样本。这抑制了在线更新中的误差累积问题,提高了在新更新的效率。该部分研究在孪生网络框架下,利用双边界模型生成的模板集,实现了对变化目标的有效追踪。通过消融实验分析和与其他方法的对比试验,验证了该方法各个模块的有效性以及其对在线更新效果的提升。
(5)针对基于检测的深度追踪框架没有使用追踪序列信息的问题,提出一种基于最大后验目标状态估计的自适应Region Proposal Network(RPN)决策模型。该模型通过一个基于孪生网络的目标状态观测模型来生成对当前目标状态的观测;利用最大后验概率来估计目标的真实状态;并根据估计的目标状态,对RPN模型中的锚框和特征模型进行相应的调整,使其能够更有效地服务于目标的识别和定位。在实验方面,交叉实验对比验证了各个模块的有效性;与其它方法以及基于检测的追踪方法的对比,验证了该方法在利用序列信息方面的有效性。