基于孪生网络的边框自适应及特征对齐目标跟踪算法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:liongliong550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标跟踪是计算机视觉中一项基础但具有挑战性的任务。给予视频序列初始帧中的目标状态,跟踪器需要预测随后每一帧中的目标状态。目标跟踪以其重要的理论价值和广泛的应用价值,吸引了国内外众多研究员和研究机构的关注。虽然目标跟踪已经被深入研究了很多年,也有许多高性能的目标跟踪算法被提出,但在真实世界的场景实现快速、准确的跟踪依然具有挑战性。目标跟踪的挑战主要来自环境的复杂性和目标自身的因素(如背景混杂、非刚性物体形变、快速运动)。在真实世界的场景中,由于目标或摄像机的移动以及目标外观的变化,目标的尺度和宽高比也不断发生变化。在目标跟踪中,准确预测目标的尺度和宽高比成为一个难题,并由于背景混杂、遮挡和快速运动等难点的存在,而使问题更具挑战性。针对上述问题,本文提出了两个基于孪生网络的目标跟踪算法,主要研究内容如下:(1)提出了基于孪生边框自适应网络的目标跟踪算法(Siamese box adaptive network,Siam BAN)。Siam BAN将目标跟踪问题视为并行的分类和回归问题,可以在统一的全卷积网络中直接对对象进行分类并回归其边框。无锚(anchorfree)的设计避免了与候选框相关的超参数和运算,从而使Siam BAN更加灵活和通用。此外,针对目标跟踪问题,还做了以下改进。在特征提取网络方面,修改了Res Net-50上卷积的步长且应用了不同空洞率的空洞卷积。在样本标签分配方面,提出了自适应的椭圆标签分配方式。在损失函数方面,使用了线性的Io U损失。Siam BAN以40 FPS的速度在包括VOT2018,VOT2019,OTB100,Nf S,UAV123,La SOT在内的跟踪基准数据集上获得了先进的性能。(2)提出了基于孪生特征对齐网络的目标跟踪算法(Siamese feature alignment network,Siam FAN)。Siam FAN用两步优化机制来改善预测的边框和使用的特征之间不对齐的问题。在两步优化机制中,第一步先用无锚的方式生成初始边框,第二步再对初始边框进行分类和优化。为了使用来分类和优化的特征能更准确的描述初始边框,本文设计了可以根据边框进行采样的对齐卷积。此外,本文还设计了目标蒙版,以充分利用目标在初始帧的状态。Siam FAN在多个目标跟踪基准上获得了先进的结果,包括VOT2018,VOT2019,OTB100,Nf S,UAV123,La SOT,且速度高达75 FPS。
其他文献
在现代光信息的研究中,光学微谐振腔占据着重要的地位。近年来,回音壁模式(whispering-gallery-mode,WGM)光学微谐振腔以其高品质因子和小模体积的特性,成为光学研究中的热门对象。在以往的WGM微腔耦合激发系统中,锥形光纤耦合的方式以其高效率被广泛应用,然而锥形光纤耦合系统稳定性差,且锥形光纤本身结构脆弱,耦合时极易受到外界环境的干扰,限制了WGM微腔的实用化。微结构光纤是一种二
学位
近年来,基于微纳米光纤的光学传感器因其高灵敏度、快速响应和小尺寸等优点得到研究者的广泛关注。基于微纳光纤的各类型光学传感器因器件结构及微纳光纤结构参数不同,而存在较大差异。本文搭建双锥微光纤浓度传感和螺旋微光纤温度传感实验平台,系统分析微光纤结构参数对两种传感器的响应曲线的影响;应用反向传播神经网络网络算法(Backpropagation neural network,BPNN)预测了结构参数不同
学位
随着互联网承载的信息量爆炸式增长,用户对信息推荐的个性化需求变得越来越大。个性化信息推荐的出现,能够有效地帮助用户获取准确的信息。然而,传统协同过滤推荐方法在挖掘用户及项目信息方面依然存在数据稀疏和过载问题,这些都限制了推荐结果的精准性。利用知识图谱中丰富的语义关系的优势可以为基于人物的个性化信息推荐设计提供更有效的途径,并逐渐成为学者们研究的重点。本文主要研究基于知识图谱的个性化信息推荐,重点研
学位
锂离子电池(lithium battery)凭借体积小、高比能量等优秀的性能表现及可靠的安全性已经成为当前应用最广泛的电能存储单元。与此同时,随着生产工艺的不断发展,对锂电池的品质要求也越来越高。然而在流水线生产过程中,由于工艺缺陷、物体碰撞或挤压造成的电池外观缺陷往往很难避免。当前企业的解决方案多为安排专门的质检员按照缺陷类别进行分拣。该方法不但人力成本高,且分类结果受主观性影响大,不利于根据分
学位
近年来,图像自动标注成了当下机器学习最热门的研究方向之一。图像自动标注技术能够将互联网上海量的图像信息转换为文本信息,方便进行图像检索、图像分类等应用。现在主流的图像自动标注模型大部分都采用深度学习网络构建而成,这些模型基于编码器—解码器框架,在编码器阶段利用卷积神经网络提出图像特征,在解码器阶段利用循环神经网络对图像的特征进行解码并且生成对图像的描述语句。本文将分别从编码器和解码器两个部分对其进
学位
随着技术的进步和社会的发展,高质量的图像为人们的生产生活提供着更多的便利。但图像在采集、传输和显示等过程中易产生失真现象,影响图像质量,因此对图像质量评价算法的研究具有重要意义。目前评价算法按依赖参考信息的程度可以分为全参考,部分参考和无参考图像质量评价,其中无参考图像质量评价算法由于完全不依赖参考信息,在实际场景中应用最为广泛。图像对比度失真是数字图像中一种常见的失真类型,然而目前研究人员针对图
学位
基于数据驱动的频域载荷识别技术在现代工程设计,可靠性试验,振动控制等方面具有广泛的应用范围。但在载荷识别过程中往往存在着不适定问题导致识别精度下降,而神经网络可以很好地缓解不适定问题,但是基于神经网络的载荷识别方法存在模型训练时间长,效率低,精度不高的问题。根据传递函数在频域的连续性,本文提出利用迁移学习,提高目标域的神经网络载荷识别模型的训练效率和识别精度,主要研究内容包括:(1)针对基于神经网
学位
红外图像可以在光线条件不好的情况下更加清晰的捕捉人脸信息,因此在实际应用场景中,红外图像的人脸识别也逐渐成为学界研究的热点之一。大量针对红外图像的识别算法被提出,并且达到了优异的性能。然而在实际应用场景中,人们发现经常会出现跨域识别的情况,即数据库中存储的是红外图像,而在特定条件下采集的人脸图像却是可见光图像,或者库中的数据为可见光图像,但采集的图像是红外图像,这种情景在安防领域经常出现。在此背景
学位
随着云计算和物联网等技术的发展,服务化成为软件的主要形态。越来越多的软件服务被开发和部署在互联网上,同时还有大量的虚拟化服务连接现实世界中各种物理服务资源,这些海量的服务通过特定的方式链接在一起形成服务互联网。在服务互联网环境下针对复杂的用户需求,为了实现服务体系的正常运营,服务组合优化技术成为解决这个问题的方法。目前传统的服务组合方法大多针对单一用户需求,在面对大量的同时出现的个性化需求时都是从
学位
汽车作为21世纪最重要的出行方式,极大地便利了人们的生活,其自动驾驶功能也越来越受到人们的关注。障碍物检测和测距是汽车感知周围信息的重要技术,能够为决策者提供重要依据。传统方法采用分类器检测车辆,激光雷达测距,具有鲁棒性差和价格昂贵的缺点。近年来,随着硬件计算能力的极大增强,基于深度学习的行车视觉测距技术已经逐渐成为研究热点。同时,5G的快速建设促进了边缘计算的发展,可以解决传统云计算传输时延大、
学位