结合特征增强与模板更新的目标跟踪方法研究

被引量 : 0次 | 上传用户:jeall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标跟踪作为计算机视觉领域的研究热点,旨在探索如何准确快速地捕获感兴趣目标运动状态,实现强鲁棒性的目标跟踪,相关技术方案可以广泛应用于安全监控、智能交通等诸多领域,具有重要的理论意义与应用价值。然而,现有跟踪方法大多缺乏对全局信息的关注,不能充分利用深层和浅层信息。此外,单纯依赖初始帧的特征进行模板匹配,无法适应跟踪整体过程中目标持续发生外观变化的问题。尤其是对于航拍视角下获取的目标对象,存在目标信息量少等多种复杂因素,使得研究设计性能稳定的跟踪方法面临重大挑战。本文立足现实应用需求,针对典型跟踪方法存在的不足,基于孪生网络架构和Transformer网络结构提出两种新的解决方案。论文的主要研究内容与创新性贡献如下。1)为了充分利用深层和浅层信息提高特征表征能力,并且更好适应目标外观变化,提出一种结合Transformer特征增强与模板更新的目标跟踪方法(TUTrack)。首先,基于孪生网络架构特征提取网络对特征进行预提取,构建由通道注意力和Transformer模块组成的特征增强网络,对预提取的特征向量进行上下文和通道上的显著性增强。然后,利用增强的特征信息通过分类回归网络实现目标状态估计。最后,设计模板更新策略,依据置信度得分有判断性地自适应更新样本模板。实验结果表明,提出的跟踪方法在典型基准数据集OTB100、La SOT和GOT-10k上取得了良好的跟踪性能,特别是在目标变化,背景干扰、运动模糊等复杂场景中具有较好的鲁棒性。2)为了获取更加丰富的全局上下文感知和时空信息,同时提高设计方案对航空领域微小目标的跟踪鲁棒性,提出一种基于Transformer特征集成网络的目标跟踪方法(TFITrack)。文中结合Transformer网络结构,在编码器中引入相似性计算层、时间上下文过滤层和双重注意力模块,用于聚合时空和全局上下文信息。相似性计算层和双重注意力模块可以加深特征之间的相似度,并进行通道与空间维度的校正,提高特征的表达能力。时间上下文过滤层用来自适应忽略不重要的特征信息,在保证跟踪性能的情况下减少模型计算参数量。实验结果表明,提出的跟踪方法在OTB100、La SOT、GOT-10k、DTB70、UAV123、UAV20L和UAV123@10fps七个基准数据集上具有较好的跟踪性能,特别是在具有视角变化明显、分辨率低、目标运动速度快等航拍挑战因素影响的情况下表现出更优良的鲁棒性。
其他文献
三维模型是人们认识世界的主要方式,而三维重建是指将目标不同角度下的二维图像复原成三维模型的技术,基于图像的三维重建技术在医疗影像、游戏开发、军事侦察等领域具有非常重要的应用价值和广阔的发展前景。传统的三维重建方法需要手工设计参数和特征矩阵,在不同的外界环境影响下,三维重建的效果差别较大。近年来,由于深度学习技术在计算机视觉方向的广泛应用,有学者开始将深度学习技术应用到三维重建领域。早期的三维重建网
学位
工控协议是工业软件的重要组成部分,作为工业软件主要的信息传输规范,品类繁多的工控协议更容易产生漏洞风险。因此,近年来工控协议安全风险作为安全热点问题被广泛关注。针对开放且繁多的工控协议,如何快速有效的对其进行漏洞检测是当下工业安全领域中的研究热点。模糊测试作为工控协议漏洞检测的常用途径,然而传统的模糊测试方法存在,模糊测试效果不佳,且需要针对单一协议需要具体分析工控协议的格式信息,缺乏泛用性等问题
学位
无线传感器网络(Wireless Sensor Network,WSN)的出现,为环境监测、智能家居等领域带来了巨大的变革。但随着人们对于网络的需求逐渐多样化及网络规模逐渐变大,随之而来就导致了在传统算法下数据传输性能变差的问题。对此,分簇的思想逐渐用于优化数据传输。但现有的分簇算法的节点之间所拥有的信息是有限的,仍然存在着考虑参数不全面的问题,特别是基于WSN中节点一对多及多跳通信的特点导致不能
学位
尾矿坝是矿山生产中重要的组成部分,同时也是重大的环境污染源和危险源。尾矿坝的安全研究已成为矿山工程领域重要的课题,干滩长度是衡量尾矿坝安全稳定性的重要指标之一。本文提出一种基于深度学习的干滩长度测量方法。本文的主要研究重点:利用深度学习训练可以分割干滩水面分界线的模型,根据图像分割结果选取干滩水面分界线上的像素坐标点作为参考点,并通过单目测距模型推导参考点与实际干滩长度之间的转换公式,进而求得干滩
学位
高质量图像在人们生活中具有重要的指导作用,但在日常生活中经常会出现模糊图像,比如失焦模糊、运动模糊等,这将会难以获取图像中的重要信息。本文主要解决的问题是在道路交通视频监控中发生的运动模糊现象,例如在道路交通中,所拍摄物体很容易发生运动模糊。通过对模糊图像进行处理,可为道路交通系统提供重要帮助。本研究对现有图像数据集和去运动模糊算法进行了研究,设计出了有关道路交通的模糊图像数据集和基于深度学习的图
学位
在经济高速发展的今天,人们在享受着科技潮流带来的舒适体验的同时,也越来越注重身份安全认证问题。生物特征识别技术是当今社会用以处置身份安全认证问题的重要手段,生物特征识别技术更加的方便与安全,其拥有高扩展性、极易区分、容错率低、稳定性高等众多优点,因而被广大学者、机构广泛研究。虹膜识别作为生物识别技术中最为安全可靠的技术之一,由于其结构特性,个体自童年以后,便基本不会发生变化,因而相比较其他生物识别
学位
在公共安全领域,视频监控已经成为安全防范系统的重要组成部分,它可以为管理者提供实时、全方位的视频流,但依靠人力24小时监管暴力事件的发生并不现实,既耗费精力,又易产生盲区,很难完成实时监管任务。将深度学习技术应用于视频监控领域,从摄像头捕捉的视频流中自动检测并分析,识别是否存在暴力行为,并提供实时的告警,有利于解放人力,提升应急事件处理效率。现有暴力行为检测技术在工程应用中存在很多挑战,例如复杂背
学位
随着科学技术的突飞猛进,图像分类技术已经成为计算机视觉领域的一个热点,其中基于局部特征的图像分类在越来越多的领域得到广泛的应用。局部特征算法缺乏足够的普适性,在不同领域上进行实际应用时,都需要进行相应的调整与改进。本文通过对局部特征图像分类技术的研究和分析,提出了基于图像检索与匹配的SURF算法(RM-SURF),并将其应用于子弹弹壳的图像分类上,实现了子弹的溯源。由于弹壳图像数据大规模采集难度大
学位
互联网新闻数据具有时效性强、自由性高、流动性强的特点,它可以及时的反映出社会对某个事件发展情况的态度,因此研究面向新闻领域的事件预测具有重要的意义和价值。以往的研究主要基于时间的事件序列进行事件预测,忽略了词语间的结构关系对事件预测的影响。这使得事件预测存在特征提取不足和预测准确度较低的问题。本文为了更好的提取事件特征以及提高事件预测的准确率,首先设计了基于动态图注意力网络的事件预测算法,同时编码
学位
自然语言是人类进行通信的主要工具,人类间通信的目的主要是进行知识交互。知识是对识的理解和描述,所以对自然语言的研究应该从知识的表示开始,进而研究知识怎样转换成人类能理解的自然语言形式。传统的知识表示方法不能全面统一地表示人类智能的自我意识性、互表性、模糊性及动态性等特点,而基于唯识心理学建立的AORBCO模型能够对多模态知识进行统一表示。为使AORBCO模型所表示的知识能够使人类理解并进行交互,本
学位