【摘 要】
:
目标跟踪是计算机视觉范畴内一项基础而重要的研究方向,在智能监控,公共安全,人机交互和自动驾驶等诸多科学和技术领域中,都有着广泛的应用。目标跟踪的主要任务可以简单概括为,在已知视频第一帧中某个任意物体具体位置的情况下,尽可能精确地定位出在该目标后续帧中的位置。在实际应用中,由于目标会不可避免地遭遇诸如尺寸变化、形变、运动模糊等干扰因素,因此,本文对基于孪生神经网络的跟踪算法进行了深入调研,并在此基础
论文部分内容阅读
目标跟踪是计算机视觉范畴内一项基础而重要的研究方向,在智能监控,公共安全,人机交互和自动驾驶等诸多科学和技术领域中,都有着广泛的应用。目标跟踪的主要任务可以简单概括为,在已知视频第一帧中某个任意物体具体位置的情况下,尽可能精确地定位出在该目标后续帧中的位置。在实际应用中,由于目标会不可避免地遭遇诸如尺寸变化、形变、运动模糊等干扰因素,因此,本文对基于孪生神经网络的跟踪算法进行了深入调研,并在此基础上提出多种改进策略。本文的研究内容和成果包含以下几个方面:(1)本文提出了一个平行注意力模块(Paralleled Spatial and Channel Attention,PSCA)和自适应焦点损失函数(Adaptive Focal Loss,AFL)。通过引入注意力机制来增强特征的表征能力,同时抑制无关信息的影响,使得提取到的目标特征更加鲁棒以提高跟踪的精度。PSCA模块包含两个部分,首先,本文设计了一个分组异质空间注意力模块(Group-wise Heterogeneous Spatial Attention,GHSA),该模块通过特征分组从子特征空间中强化目标的语义特征。其次,本文结合多尺寸的一维卷积设计了多尺度通道注意力模块(Multi-size Channel Attention,MSCA),分别在全局和局部两个层面对于特征通道进行权重调整。PSCA由GHSA模块与MSCA模块相并联构成,可以集成到孪生网络中以优化目标跟踪任务。最后,为了降低简单样本在训练阶段对模型带来的负面影响,本文改进了焦点损失函数并提出自适应焦点损失函数AFL,自适应地根据训练进程及各个训练样本的重要程度调整其权重,使网络在训练阶段注重难以区分的困难样本,提高训练效率。(2)本文在孪生网络基础上提出了一种基于多层级卷积特征融合的网络(Feature fusion network,F-net)用于目标跟踪。随着卷积网络的结构不断趋于深度化、复杂化,深度学习模型学习到的卷积特征对目标跟踪算法的提高却并不明显。本文依据孪生网络特点,对经典深度网络模型进行改进,构造更加合适的特征提取网络。在特征提取阶段,本文所涉及的网络首先提取出浅层的卷积特征,浅层卷积特征判别性不强,但较好地保留了目标的结构信息。然后网络提取出目标的深层卷积特征,深层卷积特征会随着网络加深和卷积操作的不断累积,出现目标边界信息模糊的情况,但是其具有丰富的语义信息和高判别性。最后,通过将不同层级的卷积特征融合,得到互补的特征信息,使得网络在跟踪过程中既能对目标和背景进行准确分类,又能得到目标的精确尺寸。(3)本文在孪生网络基础上提出了一种基于互信息学习的网络(Mutual learning network,M-net)用于目标跟踪。M-net建立起孪生网络两个分支之间的连接,并通过两个分支之间的信息提取、相互学习等方式在一定程度上更新了模板分支的目标模板。首先,对两个分支提取到的特征进行一系列矩阵操作,使特征的维度便于计算。然后,通过矩阵相乘、向量点乘等方式,使搜索分支学习来自目标分支的信息,从而强化目标的特征表示。最后,目标分支学习搜索分支中上下文信息,动态地根据背景信息更新模板。另外,本文还将M-net与F-net相结合,构成一个既包括了单个分支内的特征融合,又兼顾了不同分支之间的信息学习的双孪生网络结构用于单目标跟踪。综上所述,本文提出了PSCA、AFL、F-net和M-net等策略用于改进基于孪生网络的单目标跟踪算法,并通过在多个公开数据集上的大量实验论证了本文所提算法的优良性能。同时,本文提出的算法保证了跟踪的实时性,可以满足在线跟踪的需求。
其他文献
行人检测作为计算机视觉研究领域的一项关键技术,在智能监控、车辆辅助驾驶、运动分析与人机交互等领域有广泛的应用价值。但由于姿态、穿着、尺度、光线的变化以及相互遮挡等复杂场景的影响,行人检测仍是一个有挑战性的问题。融合多个特征能加强人体特征表达、提升行人检测算法性能。本文针对多特征融合、候选区域的提取、行人尺度多样性等问题以及行人检测算法的应用进行了研究,主要研究工作如下:(1)针对结合方向梯度直方图
图像超分辨率(Super-Resolution,SR)是一种将低分辨率图像(Low-Resolution,LR)处理为高分辨率图像(High-Resolution,HR)的技术,旨在提升图像的像素密度,并且在一定程度上还原图像中的细节。超分辨率算法对人类世界产生的影响极其深远,其应用场景十分广泛,包括卫星成像、医学成像、视频监控、自动驾驶等诸多领域。同时,随着近年来深度学习的发展以及人们对于图像质
3D目标检测是近几年来计算机视觉领域中备受关注的前沿方向,在机器人、自动驾驶、增强现实和虚拟现实中具有广泛的应用前景,如何精确地进行3D目标检测具有很大的研究意义和实际的应用价值。为了有效避免传统方法的弊端,充分发挥深度学习强大的特征学习能力,本文研究了基于深度学习的3D目标检测算法,融合了不同数据源的数据,构建了多模态特征融合框架,弥补了单模态点云语义信息不足的缺陷,以提升远小物体及遮挡物体的检
近年来,物联网技术的发展以及智能手机的普及,从智慧医疗保健行业的发展看来,可穿戴设备潜力巨大。随着传感器技术的进步,用户可以利用可穿戴设备精确地对睡眠状况以及日常运动进行实时监控,可用于各种健康保健和预防性医疗。社会的医疗保健系统与人们的生活息息相关,而当下的医疗诊断主要还是依靠于实体医院,对于预防性健康医疗的需求较大,这使得可穿戴设备具有广阔的市场前景。可穿戴式设备作为未来个人健康检测的基础,将
计算机和通信系统与物理世界的快速融合,促进了工业信息物理系统(Cyber Physical Systems,CPSs)的出现。由于集成了控制、通信、传感和计算能力的工业CPSs对接口的要求更加开放,大量的网络安全威胁涌入到系统中,这引起了学者们对工业CPSs安全性问题的广泛关注。重放攻击是工业CPSs中一种常见的数据完整性攻击。虽然针对数据重放攻击的检测方案已取得一些成果,但是这些研究通常需要已知
GIS(Geographic Information System,GIS)是用于输入、存储、查询、分析和显示地理数据的计算机系统,它继承了地理、测绘、地图、信息、通信等众多的学科知识,是多种学科交叉的综合性技术。近些年来,伴随着地理信息系统的发展,人们对于地图数据信息的需求量越来越大。地图自动制图综合研究成为GIS领域的热点内容,是地图制图自动化的难点与发展方向。地图综合主要是根据制图综合的基本
智能体是人工智能的具体实现。在群体智能中,种群中的每一个个体都可以视为智能体,这些智能体根据某些规则决策下一次的搜索轨迹,以逼近优化问题的全局最优解。目前粒子群优化(Particle Swarm Optimization,PSO)算法及其变体已被证明是求解复杂优化问题的有效方法。在过去的20年中,PSO已引起了学术界的广泛关注。然而,粒子群算法在搜索过程中存在粒子位置振荡、多样性不足和易于陷入局部
磁共振成像由于其无辐射、多参数、对比度高等特性,被广泛应用到医学成像领域。但是其过长的数据采样时间限制了其应用。自磁共振成像技术被提出以来,各种用于提升成像速度的方法被提出,比如提高最大磁场转换率与并行成像等。而当前研究的一大热点是通过对k-空间数据进行欠采样来快速成像。理论上对k-空间欠采样可以成倍的加快成像速度,但如果采样频率低于Nyquist-Shannon定理,重建出来的图像就会出现严重的
近些年来随着深度学习的发展,基于图像的虚拟试衣技术获得越来越多的关注。目前利用深度学习算法实现虚拟试衣的技术主要有两个,一是基于CAGAN的,但是该网络生成的图像质量不理想,并且无法处理较大的空间变形,二是基于VITON的,但是在试衣前后的图像存在较严重的颜色失真、面对自我遮挡时生成效果不理想以及变形网络存在一些缺陷等。因此,本文对深度学习算法应用在虚拟试衣中出现的这些问题进行了研究和解决,本文的
近年来,人工智能在诸多领域都取得了重大进展,如生物医学、智能交通、智能家居等。医学图像处理是生物医学领域热门的研究方向之一,随着人工智能技术的飞速发展,尤其是深度学习的兴起,该问题有了新的解决方案。应用深度学习技术解决常见的医学图像处理问题已经取得了一定的进展,但仍存在以下挑战:1)医学图像的获取耗时长、花销大,某些图像的获取甚至会对人体产生伤害,如何避免这些限制获得充分的医学图像辅助医生诊断?2