论文部分内容阅读
作为计算机视觉领域的重要问题之一,以视频序列为载体的目标跟踪在动作识别、行人分析等应用中居于核心地位,同时其问题复杂性也让研究工作充满挑战。本文首先从历史语义信息和连续决策过程两个方面对跟踪问题的本质进行理解:即跟踪过程应为连续的决策过程,且视频序列提供的历史语义信息为后期决策提供支撑的同时也带来冗余。接着,基于该本质理解,总结出现有跟踪研究工作中的一些局限性:历史语义信息在时间与空间上的局限性,跟踪行为层面决策的局限性。随后,以“样本”与“决策”为出发点,提出具体问题:样本的全面及精确获取、平衡有效利用,决策的获取及使用。最后,分别利用不同尺度的学习方法对上述问题逐一展开研究,主要内容如下:
首先,针对样本获取问题中普遍存在的样本选择不全面、不精确现象,本文提出一种基于多时间尺度及局部空间尺度的时空上下文协作学习跟踪算法(MSTC),该方法将三种时空上下文即长期历史目标、中期稳定场景及短期全面目标,进行协作学习。具体地,不同于多数多尺度跟踪方法中固定时间尺度的做法,MSTC依据人类基本记忆模型,使用一种低维图像相似性表示的快速感知哈希算法,来动态地更新长期历史目标与中期稳定场景的时间尺度;与多数跟踪算法中将样本标记为阴性或阳性的方法不同,MSTC受益于视觉空间关注性提出一种融合图像显著性的样本权重算法,使样本权重信息涵盖范围更广泛。在公开的OTB50测试集中,MSTC在OPE成功率指标得分达到0.629,实验表明MSTC算法具备优越性。
其次,对于样本的平衡性获取及有效利用问题,本文提出一种基于单时间尺度及全局空间尺度的运动模型平衡性获取和模型更新智能调整的跟踪算法(MMMU)。一方面,不同于一般跟踪算法中运动模型只注重当前帧的局部信息(目标或背景),MMMU从全局空间尺度出发,利用图像分割及检测技术解决当前帧样本在目标与背景间的平衡性获取问题;另一方面,有别于多数跟踪框架在模型更新时采用逐帧更新或步进式更新的方式,MMMU在连续时间尺度上分析跟踪场景的相似性,并依据选择遗忘机制设计出更加智能的更新策略。在公开的OTB50测试集中,MMMU在OPE成功率指标得分为0.612,实验表明MMMU及其相应改进模型在跟踪性能上均有所提升。
最后,对基于跟踪行为层面的决策获取及利用问题。本文提出一种基于多维状态-动作空间强化学习的视觉跟踪算法(MACT),用以实现决策框架辅助基础跟踪框架的思路。受生物启发模式,MACT分析人类视觉跟踪目标的行为,总结出主观注意力观察变化与客观目标运动变化两个方案。通过将跟踪过程建模为马尔科夫决策过程,并以多维状态-动作空间强化学习为框架,MACT将上述分析方案与多尺度动作空间进行映射,训练出一种可扩展的跟踪决策框架(该框架包含特征选择策略及运动趋势策略)。在公开的OTB50测试集中,MACT在OPE成功率指标得分达到0.630,结果表明MACT在跟踪速度与准确性上表现良好。
综上,本文通过对跟踪本质进行剖析,进而得以从样本及决策两方面丰富当前跟踪研究。受益于多种生物启发模式(人类基本记忆模型,遗忘保护机制,视觉显著性等),采用不同尺度的学习方法(单或多时间尺度,局部或全局空间尺度,多维状态-动作的决策尺度等)进行建模求解。实验结果表明,视觉跟踪研究可以通过对跟踪问题本质的思考得到进一步丰富,从而使该研究具备更好的可解释性。
首先,针对样本获取问题中普遍存在的样本选择不全面、不精确现象,本文提出一种基于多时间尺度及局部空间尺度的时空上下文协作学习跟踪算法(MSTC),该方法将三种时空上下文即长期历史目标、中期稳定场景及短期全面目标,进行协作学习。具体地,不同于多数多尺度跟踪方法中固定时间尺度的做法,MSTC依据人类基本记忆模型,使用一种低维图像相似性表示的快速感知哈希算法,来动态地更新长期历史目标与中期稳定场景的时间尺度;与多数跟踪算法中将样本标记为阴性或阳性的方法不同,MSTC受益于视觉空间关注性提出一种融合图像显著性的样本权重算法,使样本权重信息涵盖范围更广泛。在公开的OTB50测试集中,MSTC在OPE成功率指标得分达到0.629,实验表明MSTC算法具备优越性。
其次,对于样本的平衡性获取及有效利用问题,本文提出一种基于单时间尺度及全局空间尺度的运动模型平衡性获取和模型更新智能调整的跟踪算法(MMMU)。一方面,不同于一般跟踪算法中运动模型只注重当前帧的局部信息(目标或背景),MMMU从全局空间尺度出发,利用图像分割及检测技术解决当前帧样本在目标与背景间的平衡性获取问题;另一方面,有别于多数跟踪框架在模型更新时采用逐帧更新或步进式更新的方式,MMMU在连续时间尺度上分析跟踪场景的相似性,并依据选择遗忘机制设计出更加智能的更新策略。在公开的OTB50测试集中,MMMU在OPE成功率指标得分为0.612,实验表明MMMU及其相应改进模型在跟踪性能上均有所提升。
最后,对基于跟踪行为层面的决策获取及利用问题。本文提出一种基于多维状态-动作空间强化学习的视觉跟踪算法(MACT),用以实现决策框架辅助基础跟踪框架的思路。受生物启发模式,MACT分析人类视觉跟踪目标的行为,总结出主观注意力观察变化与客观目标运动变化两个方案。通过将跟踪过程建模为马尔科夫决策过程,并以多维状态-动作空间强化学习为框架,MACT将上述分析方案与多尺度动作空间进行映射,训练出一种可扩展的跟踪决策框架(该框架包含特征选择策略及运动趋势策略)。在公开的OTB50测试集中,MACT在OPE成功率指标得分达到0.630,结果表明MACT在跟踪速度与准确性上表现良好。
综上,本文通过对跟踪本质进行剖析,进而得以从样本及决策两方面丰富当前跟踪研究。受益于多种生物启发模式(人类基本记忆模型,遗忘保护机制,视觉显著性等),采用不同尺度的学习方法(单或多时间尺度,局部或全局空间尺度,多维状态-动作的决策尺度等)进行建模求解。实验结果表明,视觉跟踪研究可以通过对跟踪问题本质的思考得到进一步丰富,从而使该研究具备更好的可解释性。