深度注意力目标跟踪网络和嵌入式部署

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:focus2316acn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉目标跟踪是计算机视觉的核心问题之一。基于孪生网络的判别式深度学习方法在单目标跟踪领域取得了优越的性能,但是为了保证跟踪速度,主流的跟踪器普遍采用常规卷积主干网络,导致模型在跟踪精度上有所损失。针对现有跟踪器未能有效挖掘目标特征的缺陷,本文引入注意力机制,构造了自注意力和空间注意力模块实现判别学习和特征融合,在不显著增加额外计算量的同时提升了单目标跟踪模型的性能。此外,针对多目标跟踪中基于中心点的嵌入特征无法全面表达目标实例的缺陷,设计了基于注意力的准星嵌入模型,实现了准确的多目标跟踪。在上述研究的基础上,研究了基于注意力目标跟踪网络的嵌入式部署。主要工作和创新如下:1.设计了基于Transformer的单目标跟踪器(Object Tracking with Transformer,OTTR)。首先,在判别式深度目标跟踪网络中加入自注意力模型Transformer,利用Transformer强大的序列学习能力对目标准确定位和尺度估计;其次,设计了高层语义指导低层特征的单边空间注意力模块(Unilateral Spatial Attention,USA),提升了目标的定位精度,同时克服了特征金字塔(Feature Pyramid Network,FPN)结构所带来的参数量较多的缺陷。将方法在多个单目标跟踪数据集上进行验证,实验结果表明:OTTR在OTB100(低分辨率)基准、GOT-10k数据集以及UAV123数据集上分别取得0.654、0.448和0.585的AUC分数,其中在UAV123数据集上跟踪精度比Siam RPN++跟踪器提高了3.7%。基于单边空间注意力的跟踪器(Tracker Based on Unilateral Spatial Attention,TBUSA)相较Di MP单目标跟踪器在GOT-10k数据集上AUC获得了1.1%的提升;相较Di MP单目标跟踪器在UAV123数据集上AUC获得了0.6%的提升。2.设计了基于USA的准星嵌入多目标跟踪器(Crosshair Embedding Multi Object Tracker,CEMOT)。首先,将USA用于多目标跟踪模型,在不显著增加额外计算量的条件下将高层特征融入到低层特征,在MOT16基准上相较Fair MOT提升了0.2%,在MOT17基准上相较Fair MOT提升了0.1%;其次,针对基于中心点检测器的多目标跟踪模型仅使用中心点处的嵌入特征进行数据关联,导致嵌入特征无法全面表达目标实例的缺陷,设计了五点准星嵌入特征数据关联方法。在训练阶段,约束包括中心点以及周围五点处的损失函数,在跟踪阶段,使用准星处的嵌入特征进行检测对象集合与跟踪片段集合的数据关联,在MOT16-val基准上多目标跟踪精度(Multi Object Tracking Accuracy,MOTA)相较CEMOT Baseline提升了0.1%,在MOT20-val基准上MOTA相较CEMOT Baseline提升了0.1%。3.实现了基于USA的单目标跟踪模型MDNet和Siam FC在现场可编程门阵列(Field Programmable Gate Array,FPGA)上的部署。首先,使用Tensorflow框架设计了基于USA的MDNet和Siam FC单目标跟踪模型,并在GPU端进行模型训练;其次,基于VCU1525平台使用FPGA对模型中主干网络(包括卷积、池化、激活函数等模块)进行加速,在精度不损失的情况下,实现了MDNet网络在FPGA上运行速度比GTX1060(GPU)上提升了37.69%,Siam FC网络运行速度比CPU上提升了2倍。
其他文献
随着经济的不断转型和发展,企业核心竞争力已经成为企业发展的关键,对于非核心业务,企业往往选择将其进行业务流程外包。在大型设备的销售过程中,往往需要生产商提供安装及调试服务,但受到地域、工期等因素的影响,生产商通常选择将安装及调试服务外包给第三方施工队。在这种情况下,传统做法是通过电话沟通、现场监管、做工作记录来跟踪监控施工进度。但是,这种传统管理方式往往会带来各种问题,如施工效率过低、数据不易保存
自2018年李克强总理提出“互联网+政务服务”概念以来,国内的政务智能问答系统不断涌现。但是大多数的政务问答系统都是基于知识图谱的检索式问答,由于实体和关系的抽取比较复杂,导致知识图谱的构建需要耗费大量的时间和人力。随着深度学习技术在自然语言处理中的广泛应用,目前也出现了一些基于机器阅读理解的问答系统,但是由于这些机器阅读理解模型结构设计过于简单,只能适用于一些简单问题的回答,对于多跳推理的复杂问
机器人作为一个非常复杂的多输入输出非线性系统,具有强耦合、时变和非线性的动力学特性。目前,在大多数传统的机器人控制系统中,由于各执行机构单独工作,与其它机构之间没有信息交流,从而执行机构之间缺少同步协调性。而多轴系统交叉耦合控制技术的提出为机器人系统协调同步控制问题提供了一个解决方案。目前大多数多轴机器人系统的同步控制都只是达到渐近稳定,而在实际情况中,机器人系统不仅要精确地到达控制目标,其收敛所
时间序列数据是在不同时间上收集到的数据,用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度。时间序列数据在现实生活中广泛存在,例如金融领域中的交易数据和经济统计数据、消费电商领域中的用户浏览和购买数据、医疗领域中的医疗器械的信号记录、天气监测站记录的天气指标数据等这些时间序列数据是相应领域的非常宝贵的数据资源,对这些数据的准确、有效分析和利用能够帮助减小人力成本,
在大气层中,随着飞行器飞行速度的不断提高,飞行器会逐渐面临音障、热障、黑障等重要挑战。临近空间高超声速飞行器在再入大气的过程中,具有很高的飞行马赫数,与背景大气之间产生剧烈的摩擦,进而导致飞行器表面及其周围气体温度急剧上升。高温会导致飞行器表面变形甚至熔化,需要采用新型热防护材料来克服“热障”带来的困扰。在高温的作用下,包覆在飞行器周围的气体会发生热化学电离反应,产生一层“等离子体鞘套”。等离子体
近年来,高速摄像机在军工、航天、医疗和科研等方面的发展引人注目。它可以记录高速运动物体的运动状态,使用高帧率来捕获人类眼球无法观察的高速运动画面,并在采集完成后,通过超慢速回放来观察高速运动物体轨迹。但目前市面上的高帧频摄像机尚不具备长时间工作的能力,原因是高帧率的摄像机往往帧率过大,每秒产生的数据量也随之增大,这给存储系统带来了巨大压力。因此,本文针对高帧频图像实时压缩算法以及FPGA硬件实现展
随着中国航天技术的不断发展,星载嵌入式计算机的系统功能日益复杂,执行的任务形式和种类越来越多样,在计算和存储资源受限的背景下,如何对其存储的数据进行高效的分析和管理成为了新的挑战。SQLite数据库是一种直接嵌入到应用程序中、零配置、轻量、高效的软件,能够很好地解决单一文件系统对大量数据的统计分析能力不足的问题,有效降低应用开发的复杂度,提高应用程序的性能和稳定性。本论文以实际项目需求为背景,结合
作为无线通信系统的重要组成部件的天线,其宽带化研究显得尤为重要。近几十年来,微带天线的发展极大推动了天线事业的进步,然而其进一步发展受限于较窄带宽。而近年来,一种直接以超表面作为辐射体的天线发展迅猛,其具备微带天线的低剖面等众多优点,还相比微带天线有着更加丰富的模式和更宽的带宽。尤其是在引入特征模理论来预测模式和指导馈电结构设计之后,超表面天线在宽带等多个方面取得了长足进步。然而,这类天线的馈源还
染色质三维结构在基因调控、DNA复制、DNA损伤修复及疾病中起到关键作用,通过折叠将线性基因组上本不相邻的基因位点拉近从而支持远程交互发生。为从全基因组层面研究染色质空间结构与调控关系,高通量染色体构象捕获技术(High-through chromosome conformation capture,Hi-C)应运而生。通过对细胞系中蛋白介导的邻近DNA片段高通量测序,获得全基因组范围内染色质相互
本文利用集成学习算法来解决辐射源识别问题,针对分类器设计过程中常见的特征选择、信噪比变化、新辐射源样本这三个问题,给出了相应的解决方案,并通过仿真实验证明方案的有效性。为了解决更复杂的辐射源识别问题,分类器中必须引入更多的辐射源特征,这会导致信号处理流程的负担过重;而且特征向量维度的增加容易在分类器的训练过程中造成计算量大幅度提高,由于集成学习算法由许多个基分类器构成,计算量对算法的影响会更加明显