基于深度学习的视觉跟踪算法研究

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户:luckkycaroll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉跟踪是计算机视觉领域的一个重要研究方向,在自动驾驶、军事侦察、视频监控、人机交互、无人机等领域都有广泛的应用。视觉跟踪的主要目的是在视频序列中,根据给定的初始目标信息在后续视频序列中预测该目标的位置、尺度、运动状态等信息。近年来,越来越多的研究人员从事跟踪算法的研究,各类跟踪算法在跟踪性能上都不断提升,但在目标遮挡、光照变化、快速运动、目标形变等复杂场景下的跟踪性能仍不够理想,所以,对跟踪算法进行更为深入的研究仍然十分重要。目前,深度学习技术在视觉跟踪中的应用十分广泛,在基于相关滤波的跟踪算法中,通过采用预训练的深度网络模型对目标进行特征提取,增强跟踪器对目标模型的表征能力;而基于孪生网络的跟踪算法,其整体框架采用深度网络进行构建,实现了端到端的设计。结合深度学习技术,视觉跟踪算法取得了一系列进展,但在复杂场景中,如目标的形变、旋转,光照变化、尺度变化等都容易导致跟踪失败,如何进行适当的模型更新、建立更加鲁棒的目标模型是一个需要解决的问题。针对上述问题,本文分别在孪生网络和相关滤波的框架下,从模型更新、特征增强两方面展开研究,本文的主要创新点和工作成果如下:(1)针对基于孪生网络的跟踪算法缺乏对模型的在线更新问题,提出一种基于在线学习的孪生网络跟踪算法:首先,将第一帧中的目标当作静态模板,在后续帧中使用高置信度更新策略获取动态模板;然后在线跟踪时,利用快速变换学习模型从双模板中学习目标的表观变化,同时根据当前帧的颜色直方图特征计算出搜索区域的目标似然概率图,与深度特征融合,进行背景抑制学习;最后,将双模板获取的响应图进行加权融合,获得最终跟踪结果。在OTB100、TC128数据集上的实验结果表明,模型的在线更新可以有效提升算法的跟踪性能。(2)针对基于孪生网络的跟踪算法在目标形变、尺度变化等场景下对目标的特征表达不足的问题,提出了一种基于非对称卷积和响应图置信度的孪生网络视觉跟踪算法。首先,将原始孪生网络中的d×d方形卷积替换为d×1、1×d和d×d的非对称卷积,用于丰富目标的特征空间;然后在网络的最后一层,并联添加三组非对称卷积核,获得由三组目标特征生成的三个响应图;最后,分别计算各个响应图的置信度,自适应分配权重进行融合,选取最优的目标预测位置。在OTB100数据集上的实验结果表明,引入非对称卷积模块有效增强了孪生网络的特征表达能力。(3)针对无人机视频场景中容易发生的目标旋转、形变等问题,提出了一种基于目标感知特征和由粗到精搜索的无人机目标跟踪算法:在相关滤波框架下,首先使用预训练的VGG19网络作为特征提取器,将网络的第四层和第五层输出作为目标特征;接着,在第一帧中通过一个回归损失函数筛选出能够感知目标的特征通道,用于后续跟踪时的通道选择;最后,为进一步提高跟踪性能,在使用深度特征获取目标粗定位的基础上,更新搜索窗口,再使用手工特征进行精确定位。在多个无人机数据集上的实验结果表明,所提出的算法具有较高的成功率和精度,在目标旋转、形变、背景干扰等复杂场景下具有良好的跟踪性能。
其他文献
图像语义分割是计算机视觉研究的重要内容,在图像理解中起着关键性作用。早期传统的图像分割是通过颜色、纹理、亮度和形状等特征,把图像分成若干具有相同含义的区域。但是,这种分割技术的特征识别度低,在对图像进行分割时,只能提取到低层特征,导致分割性能较差。随着计算机技术的更新换代以及深度学习在计算机视觉的成功应用,图像分割逐渐进入到了可以通过深度网络提取特征的图像语义分割阶段。近年来,深度学习的日益强大极
辅助驾驶系统和自动驾驶系统的研究与发展使得交通场景中的目标检测任务己经成为当前目标检测研究领域内的重要分支,其研究内容包括行车道路中的障碍物检测、行人检测、车辆识别与车道线的检测等。实际的交通场景中普遍存在着目标之间的遮挡、光线明暗不均以及小目标众多等影响因素,复杂的交通环境使得大多数目标检测算法对小目标和目标间的遮挡等问题的检测性能较差。目前与基于传统图像处理的目标检测方法相比,大多数基于深度学
量子保密通信是量子力学的基本原理和信息通信理论相互结合产生的交叉学科,有着量子力学和信息通信学科各自的优点,量子保密通信有许多经典通信无法比拟的优势。因为独特的通信安全优势,近年来,量子保密通信的研究进展不断突破,将会在通信与信息技术领域引发新的技术浪潮。量子卫星通信作为量子保密通信的重要组成部分,在各国研究团队坚持不懈的努力下,量子卫星通信也得到了健康良好的发展,为构建广域量子卫星通信网络打下了
随着云计算技术的不断发展,越来越多的个人和企业选择使用云存储应用来存储数据。作为一种新兴的应用模式,云存储为用户提供数据快速存储和检索等服务,有效地解决了数据爆发式增长带来的数据存储问题。然而,由于用户失去了对存储在云端数据的控制权,而且云存储服务器不是完全可信的,这导致云存储中用户隐私数据泄露以及数据篡改等安全问题频频发生,严重阻碍了云存储的进一步发展与应用。属性基签名(Attribute-ba
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)采用多频率、多通道的成像方式,能够不分昼夜地进行对地监测,同时还具有穿透力强、分辨率高等优点。作为PolSAR影像解译的关键技术之一,PolSAR图像分类一直受到国内外研究者的热切关注。PolSAR图像分类是一种像素级别的密集预测任务。近些年卷积神经网络(Convolutional Neur
随着信息时代的发展,数据量日益增加。云存储技术的出现对数据的存储和共享带来了很大的便利,同时也带来了巨大的安全威胁。云存储服务器(Cloud Storage Server,CSS)往往容易受到外部敌手和内部敌手的攻击,采用普通的加密技术虽然可以保护数据隐私,但在使用时需要将远程文件全部下载到本地逐一进行解密,这无疑增加了系统资源的浪费。尽管数据加密被认为是保护数据机密性的一种简单而且有效的方式,但
人脸表情识别技术在人机交互、智慧交通和医疗等领域有广泛的应用,在计算机视觉和深度学习等领域也取得了越来越多的关注。人脸表情识别的核心技术之一是图像特征表达,目的是提取到辨识力高、鲁棒性强的特征。现已有众多学者针对人脸表情识别的关键技术开展了一定的研究工作,但在提高识别精度方面仍然是一个巨大的挑战。本文以人脸表情识别技术中的特征学习和显著性区域检测等关键问题开展研究工作,提高了识别方法的精度。主要研
图像超分辨率重建方法是通过硬件或软件的方式,将高分辨率图像从一系列相关的低分辨率图像中恢复出来的过程。当前,在实现图像超分辨率重建的方法中,机器学习和深度学习是两个对图像重建质量较好的方法。因此,本文基于这两种方法对图像重建算法进行了研究。基于邻域嵌入的自学习图像超分辨率算法是一种基于机器学习的算法。提取图像深层特征的超分辨率重建网络是一种基于深度学习的算法。本文对图像超分辨率研究的主要内容有:(
携能双向中继网络(Two-Way Relaying Network,TWRN)利用能量收集(Energy Harvesting,EH)技术,能够在完成高可靠性通信的同时延长中继节点的工作寿命。已有针对携能TWRN中系统中断性能的研究大多基于理想硬件假设,即不考虑各类损伤(如高功率放大非线性、射频电路噪声等)对收发机的影响。然而,在实际的通信网络中,收发机不可避免地会遭受着诸多因素的影响。尽管已相继
人脑在人类情感的产生过程中起到了至关重要的作用,基于脑电(Electroencephalogram,EEG)的情绪识别研究日益得到国内外学者的关注。有效挖掘大脑的功能机制为情绪识别提供了新的见解,对系统级视角下理解人脑组织的连接模式以及情绪产生的方式至关重要。认识人脑不同脑区在功能上分工与协同的规律是情绪分析的关键,然而现有的情绪识别研究在这一方面存在两个不足之处:研究者对于大脑的探究多从能量角度