基于多尺度学习的视觉跟踪

来源 :天津大学 | 被引量 : 1次 | 上传用户:zixian007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为计算机视觉领域的重要问题之一,以视频序列为载体的目标跟踪在动作识别、行人分析等应用中居于核心地位,同时其问题复杂性也让研究工作充满挑战。本文首先从历史语义信息和连续决策过程两个方面对跟踪问题的本质进行理解:即跟踪过程应为连续的决策过程,且视频序列提供的历史语义信息为后期决策提供支撑的同时也带来冗余。接着,基于该本质理解,总结出现有跟踪研究工作中的一些局限性:历史语义信息在时间与空间上的局限性,跟踪行为层面决策的局限性。随后,以“样本”与“决策”为出发点,提出具体问题:样本的全面及精确获取、平衡有效利用,决策的获取及使用。最后,分别利用不同尺度的学习方法对上述问题逐一展开研究,主要内容如下:
  首先,针对样本获取问题中普遍存在的样本选择不全面、不精确现象,本文提出一种基于多时间尺度及局部空间尺度的时空上下文协作学习跟踪算法(MSTC),该方法将三种时空上下文即长期历史目标、中期稳定场景及短期全面目标,进行协作学习。具体地,不同于多数多尺度跟踪方法中固定时间尺度的做法,MSTC依据人类基本记忆模型,使用一种低维图像相似性表示的快速感知哈希算法,来动态地更新长期历史目标与中期稳定场景的时间尺度;与多数跟踪算法中将样本标记为阴性或阳性的方法不同,MSTC受益于视觉空间关注性提出一种融合图像显著性的样本权重算法,使样本权重信息涵盖范围更广泛。在公开的OTB50测试集中,MSTC在OPE成功率指标得分达到0.629,实验表明MSTC算法具备优越性。
  其次,对于样本的平衡性获取及有效利用问题,本文提出一种基于单时间尺度及全局空间尺度的运动模型平衡性获取和模型更新智能调整的跟踪算法(MMMU)。一方面,不同于一般跟踪算法中运动模型只注重当前帧的局部信息(目标或背景),MMMU从全局空间尺度出发,利用图像分割及检测技术解决当前帧样本在目标与背景间的平衡性获取问题;另一方面,有别于多数跟踪框架在模型更新时采用逐帧更新或步进式更新的方式,MMMU在连续时间尺度上分析跟踪场景的相似性,并依据选择遗忘机制设计出更加智能的更新策略。在公开的OTB50测试集中,MMMU在OPE成功率指标得分为0.612,实验表明MMMU及其相应改进模型在跟踪性能上均有所提升。
  最后,对基于跟踪行为层面的决策获取及利用问题。本文提出一种基于多维状态-动作空间强化学习的视觉跟踪算法(MACT),用以实现决策框架辅助基础跟踪框架的思路。受生物启发模式,MACT分析人类视觉跟踪目标的行为,总结出主观注意力观察变化与客观目标运动变化两个方案。通过将跟踪过程建模为马尔科夫决策过程,并以多维状态-动作空间强化学习为框架,MACT将上述分析方案与多尺度动作空间进行映射,训练出一种可扩展的跟踪决策框架(该框架包含特征选择策略及运动趋势策略)。在公开的OTB50测试集中,MACT在OPE成功率指标得分达到0.630,结果表明MACT在跟踪速度与准确性上表现良好。
  综上,本文通过对跟踪本质进行剖析,进而得以从样本及决策两方面丰富当前跟踪研究。受益于多种生物启发模式(人类基本记忆模型,遗忘保护机制,视觉显著性等),采用不同尺度的学习方法(单或多时间尺度,局部或全局空间尺度,多维状态-动作的决策尺度等)进行建模求解。实验结果表明,视觉跟踪研究可以通过对跟踪问题本质的思考得到进一步丰富,从而使该研究具备更好的可解释性。
其他文献
该论文的研究内容共五章.(1)绪论;(2)放电回路与放电开关;(3)TEA-CO激光器的几种典型预电离技术;(4)实验结果与分析;(5)总结.(1)绪论主要介绍了TEA-CO激光器的发展及应用,指出影响TEA-CO激光器功率提高的因素主要是高气压下的稳定放电和大负荷下高压开关的稳定工作,给出了课题的研究内容及意义.(2)首先分析了Marx发生器电路、Blumlein电路、充放电电路、电容-电容转移
学位
随着计算机科学与信号处理技术的高速发展,调制信号参数的估计与调制方式的识别在民用和军事领域都扮演着重要的角色,例如灾害的防御、地质、海洋的探查、电子信息的对抗,情报的侦察等领域。而调制信号参数的估计,如调制方式、载频等,是能够成功识别调制信号方式的重要前提。论文的研究内容主要包括:  1、根据信号的循环平稳性在抗噪性方面的优势,采用信号的循环自相关函数进行傅里叶变换得到信号的循环谱。在载波频率估计
学位
由于鱼眼镜头的视角可达 180°左右,因此其被广泛应用于医学成像、智能交通、视频群组会议和安防监控等领域中。在近年来兴起的高级驾驶辅助系统、虚拟现实与增强现实等领域中,鱼眼镜头也有着广泛的应用前景。相比于普通镜头,鱼眼镜头在带来更大视角的同时,也导致了严重的图像畸变。对于鱼眼图像畸变矫正算法,国内外的很多科研人员都做过相关的理论研究。然而,大部分的算法复杂度高,计算量很大,只能在高性能的PC上实现
学位
视觉是人类观察和理解世界的一个重要途径,而机器视觉中的一个重要任务就是通过准确地理解人体行为动作来更好地实现人机交互。与此同时,视频数据随着网络技术的发展正在海量增长,而视频人体行为识别与定位由于在视频安防监控、视频检索以及人机交互中的巨大应用价值也引起了越来越多的机器视觉工作者的重视。  由于计算机自动识别出视频中危害人身安全的行为动作后进行自动报警,可最大程度地减少受害人的伤害,具有重要的视频
学位
智能监控系统通过结合人脸识别、目标检测与跟踪、异常检测等技术被广泛应用于众多相关领域。与此同时,在我国日趋复杂的工业网络结构中,监控视频在工业安防和工业质检等方面的作用愈加重要。然而,随之产生的海量监控视频的传输和存储给网络带宽、内存资源等方面也带来了极大的挑战。因此,保证监控视频的高效应用并提高压缩与重构效果,具有重大的应用和商业价值。  本文在分块压缩感知理论的基础上,根据监控视频自身及其应用
学位
数据压缩是指在保持数据的信息熵的条件下将数据量进行削减。因为深层自编码神经网络擅长于理解数据并对数据进行抽象表征,能够有效地对复杂数据进行压缩。为了能够将人耳听觉所能捕捉的所有频段作为输入,必须输入超长的音频信号采样,进而导致自编码网络的性能下降问题,本文提出了动态残差网络用于音乐音频有损压缩,优化了深度自编码网络模型,提出了一种结合注意力机制和残差学习的量化方法,从而实现了音频信号的压缩量化,同
学位
当代制造业等行业的高速发展,对传统金属材料的品质提出了更加苛刻的要求。在航空航天应用领域,复合材料因其优越的综合性能受到了广泛的关注。然而,在材料的长期服役以及所处工作环境的影响,材料表层及内部的原生缺陷以及在线工作引发的材料损伤等问题层出不穷。如何及时有效的发现材料中的缺陷损伤,是避免危险事故发生的重要前提。  针对无损检测的原位、非接触、远距离等实际需求,基于激光超声的无损检测技术能够较好的满
学位
多目标优化问题是科学研究和工程实践领域中的难题和热门问题。近年来,多目标进化算法(MOEAs)已经在多目标优化问题中取得了较好的应用,经典的多目标进化算法有非支配排序遗传算法(NSGA-II)和基于分解的多目标进化算法(MOEA/D)。这些算法能有效的解决无约束或者简单界约束下的多目标优化问题。未来,如何有效改进经典的多目标优化算法或者提出新的约束多目标优化算法,进而迭代求解复杂约束多目标函数成为
本文基于结构L增益奇异值方法,研究了结构不确定非线性系统的鲁棒性分析与综合问题,并以一些新的观点重新看待非线性H问题,讨论了其它增益问题与非线性H问题的内在联系.基于结构L增益奇异值进行的鲁棒分析与鲁棒综合,其基本依据是奇异值的边界特性,本文针对奇异值的上界特性给予了证明.本文重点研究了鲁棒稳定问题,得到了鲁棒稳定的充分条件,并讨论了保守性的影响.研究表明鲁棒分析中存在的保守性不仅和不确定性的结构
本文的第一部分是人脸识别技术综述。首先介绍了人脸识别技术的研究内容、历史、应用背景以及目前主要采用的人脸实验数据库的情况。并在此基础上阐述了人脸识别的各个步骤的主要任务和难点。 本文的第二部分主要对人脸检测和人眼定位的方法做了研究。介绍了目前的人脸检测的主要的算法。并详细介绍了两种不同的人脸检测和人眼定位算法。一种可以称为是自下而上的办法,即根据脸部的特征如人眼等来检测人脸的位置;另一种可以认为是
学位