【摘 要】
:
目标跟踪技术作为计算机视觉技术中一个不可或缺的组成部分,在自动驾驶、医疗诊断、智慧交通、国防军事等领域有着广泛的应用,受到了国内外学者的关注与研究。尽管近些年目标跟踪算法已经取得了长足的进步,但是构建一个能够适应形变、旋转、光照、遮挡等众多干扰因素的鲁棒跟踪算法依然是一项极具挑战性的任务。本文以Siam FC孪生网络跟踪框架为基础,从网络结构、多层特征融合、模板更新机制、重校验机制和时空上下文信息
论文部分内容阅读
目标跟踪技术作为计算机视觉技术中一个不可或缺的组成部分,在自动驾驶、医疗诊断、智慧交通、国防军事等领域有着广泛的应用,受到了国内外学者的关注与研究。尽管近些年目标跟踪算法已经取得了长足的进步,但是构建一个能够适应形变、旋转、光照、遮挡等众多干扰因素的鲁棒跟踪算法依然是一项极具挑战性的任务。本文以Siam FC孪生网络跟踪框架为基础,从网络结构、多层特征融合、模板更新机制、重校验机制和时空上下文信息等方面开展研究,具体的研究工作如下:1.针对SiamFC中主干网络AlexNet特征提取能力不足的问题,本文引入全局空间上下文模块和自适应特征融合策略对孪生网络跟踪算法进行改进。首先,将基础算法Siam FC中的主干网络替换为具有更深层次的VGG网络。其次,引入全局空间上下文模块,该模块用于建模目标周围的空间上下文信息,进一步提高跟踪算法的性能。最后,由于深度神经网络的深层特征包含更多的语义信息,浅层特征包含更多的位置信息,针对不同层级图像特征的不同特性,使用一种特征融合策略以自适应地融合深层语义特征和浅层表观特征,进一步提高图像特征的表征能力。实验证明,上述改进方案可以增强图像特征的表征能力,准确率和成功率分别较原始Siam FC跟踪算法提升了2.3%和2.2%,改进后的跟踪算法能够满足实际应用场景下的实时性要求。2.为了提高跟踪算法在复杂场景下的跟踪性能,本文使用模板特征更新策略和重校验机制对孪生网络跟踪算法进行改进。首先,使用一种可靠性判别机制对后续帧中跟踪结果的可靠性进行判断。当跟踪结果的可靠性较高时,将该跟踪器的预测结果作为最终的跟踪结果,并且将当前帧中的跟踪目标加入到目标模板库中用于更新目标模板。采用自适应的模板特征更新策略对目标模板进行更新,充分利用了跟踪目标在时序上的相关性,使得目标模板更好地适应跟踪目标在后续帧中因光照、形变等干扰因素造成的外观变化。当跟踪结果的可靠性较低时,使用重校验机制对波峰位置的候选样本进行重新判定,进一步提高跟踪器在复杂场景下的鲁棒性。实验证明,本文提出的基于模板特征更新策略和重校验机制的跟踪算法能够提高跟踪器在复杂跟踪场景下的跟踪性能,特别是在形变、光照变化、遮挡场景下,其准确率较原始Siam FC跟踪算法分别提高了5.7%、5.3%和5.5%,改进后的跟踪算法能够满足实际应用场景下的实时性要求。
其他文献
在未来网络规划中,越来越多的通信场景发生在室内,通信的地位愈发重要。然而室内覆盖不均、系统容量不足一直是阻碍其发展的难题,室内分布系统是针对这些难题提出的解决方案之一。在部署室内分布系统时,采用同频组网方式可解决频率资源紧缺的问题,但是会带来同频干扰,从而影响系统整体性能,导致网络覆盖降低。因此,在室内分布系统的建设及部署过程中,考虑干扰协调问题具有实际意义。论文主要工作如下:1.本文针对Lamp
随着无线通信系统业务种类和数据量的大幅增加,当前社会对系统容量极限及处理速度的需求在日益增长。多输入多输出(Multiple Input Multiple Output,MIMO)技术可以在不增加系统带宽和发射功率的前提下达到更高的信道容量及速率,而MIMO无线通信系统的信道估计及信号检测较单天线系统却有着不小的实现难度,因此针对该方面的探讨仍是无线通信领域的热点。此外,目前深度学习在通信系统的网
高压电气设备绝缘故障发生时,经常伴随局部放电(Partial Discharge,PD)现象,如果不加以预防,严重时会导致短路等现象发生,危害电力设备的安全运行,造成巨大的安全隐患。为了提前发现高压电气设备中绝缘劣化现象,需要对绝缘设备进行监测。特高频(Ultra High Frequency,UHF)传感器具有接收范围广、抗干扰能力强和非接触式测量等优点,被广泛应用于监测现场。监测现场存在各种噪
随着通信技术的不断发展,移动设备的普及使得人们对位置服务有了较高的需求,如大型购物中心、商场、医院门诊等。室外定位技术最早的是全球导航定位系统(Global Positioning System,GPS),发展至今技术已十分成熟,但建筑物会阻碍GPS数据信号的传输,使其无法在室内定位技术中使用。因此,各个领域的迫切需求促使室内定位技术获得了快速发展的机会,然而因为室内环境的复杂性和多样性,室内定位
图像是当今社会中一种重要的信息传播媒介,准确高效的文字检测方法有助于人们分析和理解图像中的语义信息。自然场景下的图像文本检测方法主要分为传统的自然场景文本检测方法和基于深度学习的自然场景文本检测方法。传统的自然场景文本检测算法因为存在检测效率低和准确率低的问题正逐渐被基于深度学习的自然场景文本检测方法所替代。但是基于深度学习的模型通常具有较深的网络结构,各层网络在提取图像特征的过程中存在丢失重要特
网络编码技术允许中间节点对转发的数据包进行编码组合后转发,打破了传统“存储-转发”的传输模式,有效提升了网络传输有效性和网络整体吞吐量。传统路由协议中节点只能被动获取编码机会,探究网络编码技术与路由技术的结合使得节点获得编码感知能力,主动探寻编码机会。其中,编码感知路由协议的研究成为焦点,现有研究中未考虑实际参与编码数据包的特征,片面追求编码机会的增加,制约编码增益提升的同时,导致网络中部分节点负
当今机器学习已经广泛应用于生产生活等各个方面,数据作为机器学习的原始驱动力,如何妥善筛选和处理数据正在成为学术和工业研究的热门方向。为了提升数据质量,即提升数据在分类中的效果和效率,学者们提出了许多不同功效的数据处理方法,如:不平衡采样,噪声过滤采样,大规模数据的采样等。然而,不平衡采样,噪声过滤采样,大规模数据采样往往是相互独立的采样算法,现实场景中的数据通常非常复杂,数据通常需要经过多种采样算
视频处理技术的进步使得人们对数字视频进行编辑、伪造变得更加容易,而通过深度伪造生成的视频则更加难以辨别其真实性。深度伪造常常被用于制造色情视频和与政治人物相关的虚假视频,造成突出的负面社会影响。因此,对数字视频的真实性进行鉴别变得十分重要。目前的鉴别方法主要针对深度伪造视频单帧内的伪造痕迹,缺乏对视频帧间相关信息的利用,从而忽略了光源不一致等帧间的伪造痕迹,数字视频的真实性鉴别准确率仍然较低。本文
结合移动边缘计算(Mobile Edge Computing,MEC)的云无线接入网(Cloud Radio Access Network,C-RAN)架构能为用户终端提供带宽丰富、可靠性高和时延低的网络接入服务与本地化计算服务,有效地扩展了用户终端的计算能力,是带宽接入技术的关键研究对象之一。然而,多样化的移动业务层出不穷,传统资源分配方式无法满足与日俱增的用户接入请求,导致边缘增强C-RAN中
随着第五代移动通信(5th Generation Mobile Communication,5G)技术的出现,移动到移动(Mobile-to-Mobile,M2M)通信系统朝着信息化、智能化方向飞速发展。由于具有低成本、低时延和较好的信噪比等特点,M2M通信系统中车辆、无人机(Unmanned Aerial Vehicle,UAV)等移动通信端在军事、农业和交通等领域得到广泛应用。但复杂的通信场景