基于网络调制的目标跟踪算法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:LIGUOQIANG630
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉目标跟踪算法是在给定第一帧目标的情况下,要求跟踪算法在后序帧中能克服光照、形变等因素从而持续地跟踪目标。随着深度学习技术被应用于目标跟踪领域,目标跟踪算法得到了长足的发展,但是在实际情况下跟踪算法仍然在诸多因素的影响下而鲁棒性较低。为此本文提出基于网络调制的目标跟踪算法,主要研究内容如下。(1)针对常见的匹配思路下未能使用高阶信息对物体的表观进行鲁棒性建模,而使得目标在跟踪过程中出现漂移,提出了基于二阶网络调制的目标跟踪算法。整体架构分为离线训练和在线更新两个部分,离线训练部分通过初始帧图片学习调制向量,之后通过调制的思想将参考帧信息融合到测试帧中,最终预测高斯框和目标标签的交并比。在这当中为了充分学习到第一帧信息,跟踪算法综合使用形变卷积、全局上下文注意增强网络以及二阶池化网络,从而加强网络对目标特征的鲁棒性。在线更新部分主要通过指数加权的方式对特征进行增强,学习相应目标的分类器以区分出前景和背景。最终,根据在线更新部分得到的目标粗定位,跟踪算法额外生成十个目标框并送入到离线训练的网络中,并通过最大化交并比的方式得到最终预测的目标框。与结果较好的跟踪算法相比,跟踪算法在OTB100、VOT2018、GOT-10k数据集上的结果具有较大竞争力,同时本文跟踪算法的速度可以达到27fps。(2)针对目标快速运动而引起尺度变化的问题,提出了基于双流网络调制的目标跟踪算法。在离线训练网络中,改变之前只是用图像做匹配的思路,采用短视频流输入,用3D卷积网络学习在短视频中目标的运动信息,即时序上的关联;同时用2D卷积学习视频最后一帧的外观特征,即空间上的关联,最后直接将时空特性融合并进行深度框回归预测以得到跟踪框。同时针对在线更新部分采用固定的搜索区域,提出了自适应的搜索策略。通过大量实验表明,所提算法能够充分利用时序和空间信息,在OTB100、VOT2018、VOT2019以及GOT-10k数据集上都有较为明显的提升,同时最终跟踪算法的速度可以达到12fps。
其他文献
随着机器视觉技术的不断发展与完善,基于机器视觉的导航系统在农业、工业、无人驾驶、服务业等领域都得到了广泛应用。由于城市化的发展,近年来割草机应用的越来越广泛,然而传统的割草机需要人工操作,劳动强度大,工作效率低。随着嵌入式处理器速度的提高以及机器视觉技术的进步,将机器视觉与嵌入式结合,用于对割草机进行自主导航成为可能。因此研究基于机器视觉的割草机自主导航与智能化控制具有重要的理论意义与实际应用价值
随着我国经济的不断发展以及科学技术的进步,对于交通网络的监控日益完善,交通视频监控设备在很多路口完成了部署,为车辆检测、轨迹预测等诸多技术的研究提供了数据支撑,通过这些技术可以挖掘出交通网络中的特征信息,为完善交通以及制定交通策略提供辅助作用。车辆检测是交通视频处理中常用的技术手段,其中的技术难点是如何解决错检、漏检以及外部环境变化对检测结果的影响。针对这些问题本文提出一种改进ViBe算法。根据车
检测人体生理参数可以帮助人们了解自身的健康状况,及时发现疾病并治疗,在医学体系中具有重要意义。基于成像式光电容积描记(Imaging Photoplethysmography,IPPG)技术的非接触式生理参数检测方法,避免了人体与仪器的接触,让居家监测、远程实时检测成为现实,除此之外还具有成本低、操作简单等优点,具有良好的实际应用价值,但是也面临着信号运动伪差难以去除、实时性差等挑战。基于上述背景
显著性目标检测是通过算法提取图片或者视频中显著区域(即人类感兴趣的区域)的技术。其中,显著目标可以依据纹理、颜色、大小甚至运动状态等有别于背景的要素来定义。显著性目标检测技术可以助力相关计算机视觉研究和现实场景应用。目前的显著性目标检测算法研究主要依靠卷积神经网络的学习来获取相关特征,进而使算法具有良好的性能。所以本文使用卷积神经网络为显著目标检测做出了探索性和创新性地研究,并取得如下成果:(1)
视频图像的实时性特点使其在银行系统、商业推广、远程会议、教学、医学图像分析、工业、监控、军事以及管理等领域有着广泛的应用,因此,大力研究视频图像处理技术具有十分重要的意义。随着超高清视频的普及,人们对硬件性能和实时视频处理技术的需求也逐步提高。本文首先分析了FPGA加速,在图像处理方向上应用的重大意义,并针对当前视频技术的研究现状和实际应用场景需求,设计了一款多路视频实时处理系统。采用具有高速并行
力触觉反馈技术在虚拟现实领域中占据重要地位,力触觉反馈技术是在虚拟环境中加入力觉信息和触觉信息,从而模拟出人类对真实物体的力触觉感知过程,将虚拟环境中的力触觉信息以更加真实、自然的方式反馈给操作者,大大提升了虚拟现实系统的交互性和操作者的沉浸感。而图像作为真实物体在二维平面的投影,记录了物体表面丰富的细节信息,因此基于图像的力触觉反馈技术研究具有重要意义及价值。本文围绕基于图像的纹理粗糙度力触觉反
随着现代社会中人们的生活和工作压力在不断地加剧,心血管病的患病率也在不断地提高。近些年来,中国人口老龄化形势日益严重,房颤作为一种心血管疾病,其患病率也在不断地提高,目前已成为人群中患病率最高的疾病之一。在本文中,根据医疗需求以及心房颤动在心电图上的表现特征,设计一种自动检测心房颤动的算法。其中本文的主要工作和创新型成果如下:(1)MIT-BIH心率失常数据库是目前使用最多的数据库,包含几种心率失
板材计数无疑是每个板材生产商必然面对的问题,它事关生产商的经济利益。传统的人工计数和机械计数方法效率较低,因此研发基于机器视觉的板材计数技术,对提高板材计数精度,提高板材生产厂商的劳动生产率,具有非常重要的意义。本论文利用三种手段研究板材计数技术及方法,具体内容如下:(1)论文研究了骨架提取板材计数的方法,使用了基于最大圆盘法骨架提取方法。首先利用改进直方图均衡化进行图像增强,增强了板材线性特征;
基于可穿戴设备的人体活动识别是一个活跃而又充满挑战的研究领域,已经在医疗健康、智能监控和安全检测等诸多应用中进行了探索。随着物联网的发展和计算能力的提高,在智能设备中嵌入了各种传感器用来收集用户的生理状态。根据用户提供的运动数据信息,使计算机体系协助用户完成一些特定的工作任务。现有的一些研究方案依赖监督学习的方法,需要大量的标签化训练数据,然而精确地标注活动的开始和结束位置是一项繁重的工作。值得注
图像融合是将多个图像传感器中获得的有效信息提取并融合,从而得到信息更丰富的完整图像。多聚焦图像融合是图像融合领域的一个重要分支,由于光学传感器的景深有限,很难获得所有景物同时聚焦的图像,多聚焦图像融合可以将多幅图像进行融合,得到所有场景都清晰的图像。本文以非下采样剪切波变换(Non-Subsampled Shearlet Transform,NSST)为基础对多聚焦图像融合算法进行研究,主要研究工