基于模型引导和特征增强的深度视觉跟踪方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tang070932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉单目标跟踪是计算机视觉领域的基本任务之一。现实生活中,各种干扰因素,如遮挡、形变、相似物干扰、分辨率低、背景嘈杂等,导致目标在运动过程中表观形状发生变化,加剧了目标跟踪的难度。近年来,基于相关滤波器(Correlation Filter, CF)和深度学习(Deep Learning)的方法明显改进了跟踪性能。基于相关滤波器的模型具有高效的计算优势,而基于深度学习的方法则学习较强的特征表达能力,有助于提升定位准确度。现有相关滤波器方法或简单使用预训练网络提取深度特征,或采用简单特征选择和特征融合机制结合卷积神经网络(Convolutional Neural Network,CNN)。另一方面,简单相关滤波器模型被嵌入卷积神经网络,但无法发挥改进的相关滤波器模型对边界效应的处理优势,进而无法达到与直接使用深度特征相当的跟踪效果。现有方法在实时性和鲁棒性方面仍存在瓶颈,快速鲁棒的目标跟踪模型仍有待进一步研究。
  目标跟踪过程通常由运动模型、特征提取、观测模型和模型更新构成,而其中特征提取和观测模型对跟踪效果有较大影响。由于目标外观的多样性,以及目标在运动过程中外观变化的多样性,给特征表达能力带来巨大挑战。在基于判别式的跟踪模型中,如何设计观测模型,将目标从背景中区分出来,是定位准确的关键。现有的目标跟踪方法,经历了从手工设计特征到深度特征的改进,但在深度特征利用和计算效率方面有待改进。在观测模型方面,近年来,相关滤波器受到重点关注,并被不断改进,但如何设计相关滤波器模型引导的深度学习目标跟踪模型仍有待进一步研究。本文将从特征增强和观测模型两方面展开研究,主要内容包括:
  (1)为解决基于支持向量的跟踪模型计算复杂度高,无法满足跟踪实时性要求的缺点,通过结合密集采样,将基于正则化最小二乘模型(Regularized Least Square,RLS)的相关滤波器扩展到基于大间隔分类的密集分类问题。提出了一种基于支持向量的相关滤波器(Support Correlation Filter, SCF)模型和交替迭代优化算法。利用相关滤波器的快速计算机制,和非对称的平方折页损失函数,在保证跟踪实时性的同时,进一步提高分类器对前景和背景的判别能力,改进跟踪效果。
  (2)直接使用在大规模静态图像数据集和图像分类任务上训练的网络提取特征,并未考虑对目标跟踪问题中序列图像的适用性。而基于大规模视频数据集训练的模型,通常为提高速度,设计浅层、顺序的CNN特征提取结构,并未充分利用深度特征。基于全卷积孪生网络(Fully-Convolutional Siamese Network,SiameseFC)框架,利用大规模视频数据集,本文引入自顶向下模块(Top-Down Modulation,TDM)进行特征增强学习。通过将顶层语义特征向下传递,指导底层特征的学习和选择,使得网络的单层输出既能捕获细节特征,又包含高层语义信息。针对样本不均衡问题,进一步通过改进的折页损失函数,挖掘困难样本加强深度特征的判别能力和相似性函数的匹配能力。
  (3)基于跳跃连接形式的深度特征增强方案,往往需要引入大量参数,为模型训练带来挑战。为同时实现增强顶层特征的表达能力和对非均匀尺度变化的鲁棒性,提出了一种自适应多因子空洞卷积的特征增强方法。在共享卷积参数的前提下,通过控制膨胀因子,提取具有不同感受野大小的特征。进一步引入自适应最大化加权特征融合方案,对具有不同感受野大小的特征进行整合。根据目标尺度自适应地选取对应感受野大小的特征,或根据物体内不同部分的尺度自适应地选取局部特征,以增强特征的表达能力和对非均匀尺度变化的鲁棒性。
  (4)为解决基于深度学习的跟踪模型在在线跟踪过程中缺乏模型自适应性的缺点,本文通过定义二层优化问题将背景感知的相关滤波器(Back-aware Correlation Filter,BACF)嵌入CNN,提出了一种相关滤波器模型引导和模特征学习学习想结合的端到端网络结构。为将BACF嵌入CNN,将求解BACF的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)展开得到截断推理模型(更新子网络)。在跟踪过程中,利用前一帧目标信息计算滤波器用于当前帧的目标定位,实现了模型自适应。为增强滤波器的鲁棒性,在损失函数中约束当前帧得到的滤波器在未来帧上仍具有一定的判别能力。训练过程中,使用贪心训练机制,逐阶段训练截断推理模型,然后再进行特征表达和截断预测模型的联合学习。通过联合学习,提高了特征和表观模型的判别能力。
其他文献
近年来,天然气凭借其易于储存运输、热值较高、燃烧产物较为清洁等特点,在工业生产与日常生活中被广泛的推广和应用。目前,我国天然气主要采用管网运输方式,但天然气管网在应用过程中因多种因素导致的管网破损、断裂等现象时常造成环境污染、火灾、爆炸、中毒伤亡等事故发生。因此,利用技术手段提升天然气管网的监管水平具有非常重要的现实意义。  本文围绕天然气管网监管问题,提出了基于车载无人机平台的巡检方式,所提方式
气固两相流广泛存在与工业生产过程中,如颗粒的气力输送及烟气的排放过程等。气固两相流流动的复杂性及流动分布参数不均匀特性,使得其分布参数的测量问题一直是国际公认的难题。静电层析成像技术面向带电颗粒的电荷分布或速度分布测量,具有非侵入性、可视性、低成本等优点,为气固两相流分布参数测量提供了一种有效方法。  由于静电法为被动式测量方法,同激励式电学层析成像方法相比,其独立测量信息数较少,对被测物场纵深区
输出饱和又称为传感器饱和,广泛地存在于实际的物理控制系统之中。其产生的原因是传感器装置只能提供有限的测量范围。当传感器发生饱和时,控制器将得不到被控对象准确的状态或输出信息,影响系统的性能甚至造成失稳。另一方面,在网络化控制系统中,受限的网络传输带宽和计算资源往往会导致网络拥堵、数据丢包、传输延迟等问题。事件触发策略作为一种非周期的采样控制方法可以在保证系统期望性能的同时,有效地配置有限的通讯资源
随着数据爆发式的增长以及深度学习的迅速发展,高阶统计信息被广泛应用于各大视觉任务中。度量学习是一种基于样本之间距离从而度量样本之间相似性的机器学习算法。传统的度量学习的方法主要针对低维度的向量特征。然而近年来的研究工作表明基于高阶信息统计量的度量学习算法普遍优于基于低阶统计量的算法。相比于低阶信息,基于高阶统计量的方法能够更好地保留图像的结构信息。基于黎曼流形上度量学习方法可以有效地利用高阶流形上
学位
互联网技术的快速发展丰富了大众的发声渠道,论坛愈加成为聚集舆论舆情的窗口,以评论为代表的主观情绪表达不断以海量且分散的形式出现在其网页之中,基于此,从信息冗余、形式多样的论坛网页中精准挖掘出有价值信息用于舆情分析具有深刻的社会意义,这也是开展此研究的重要立足点。本文以论坛网页为研究对象,对论坛信息抽取算法与情感分析算法进行了研究,主要研究内容如下:  (1)针对论坛网页中普遍存在大量噪音信息导致抽
学位
类脑计算是指借鉴大脑信息处理机制的新型计算范式,包含硬件实现、计算架构与模型算法在内的多个层面。类脑计算一方面有利于从模型计算角度理解大脑信息处理机制,另一方面有利于开发新一代超级计算系统。神经科学的研究表明,人脑不同时空尺度下的不同层次神经信息处理机制对于认知活动存在不同水平的影响。目前类脑计算依然停留在脉冲神经网络、深度学习等层面的研究,而依据不同层次人脑工作机制的类脑计算研究还比较缺乏。  
学位
目前肺癌发病率和死亡率均位于恶性肿瘤之首,对人类健康造成严重威胁。居高不下的肺癌发病率和死亡率是多方面因素影响的结果。首先,肺癌筛查主要采用的CT技术,是形态性病变检测方法,很难发现处于功能性病变期的早期肺癌,使患者错过最佳治疗时机。电阻抗层析成像(Electrical Impedance Tomography, EIT)技术作为新型功能性成像方法,在早期肺癌筛查方面具有非常好的发展前景,然而其空
学位
基于2017年MODIS归一化植被指数(NDVI)数据,采用Savitzky-Golay (S-G)滤波方法和非对称高斯(AG)拟合方法重构辽宁省春玉米种植面积的NDVI时序曲线,使用4次拟合法平滑重构曲线,采用动态振幅阈值法、拐点法和最大值法提取了辽宁省春玉米的关键物候期(出苗期、拔节期、抽雄期),并联合决策树分类法估测了辽宁省春玉米的种植面积。结果表明:基于S-G重构法的MODIS NDVI时
随着城市化水平的突飞猛进以及机动车保有量迅速上升,道路交通流量急剧增加,交通拥挤和堵塞的问题日益严重,传统的交通管理方式已经无法满足复杂多变的交通需求,严重制约和影响着社会经济的可持续发展。近年来,在信息化时代背景下,智慧交通建设为解决城市交通问题提供了新的思路和方法,也是我国交通强国和智慧城市建设的重要切入点,大力发展智慧交通逐渐成为新时期城市交通管理的普遍共识及必由之路,现实意义重大。目前,智
LTE-Advanced(LTE-A)系统,通过持续演进为用户提供更快速、更便捷的移动网络服务。在未来的移动网络中,除了数量庞大的用户设备将要接入蜂窝网络以外,不断增长的服务也需要在传输时区别对待以达到其要求的服务质量。然而,在系统资源有限的情况下,当前网络的传输能力仍然远远落后于市场需求。因此LTE-A系统采用了一些创新性的解决方案提升网络的性能,例如异构蜂窝网络技术、无线回程技术、D2D(de
学位