【摘 要】
:
多目标跟踪作为计算机视觉的一个重要分支,在智能机器人、视频分析、人机交互等领域都具有最要的应用价值。近些年来,深度学习在多目标跟踪方向的应用极大地提升了跟踪的精度,但随着视频监控、自动驾驶等领域的出现,对多目标跟踪算法的实时性需求也越来越大。为了解决这些问题,本文着眼于在保证多目标跟踪精度的同时提升算法的速度,主要进行了以下几方面的研究:(1)提出一种表观和运动特征融合的多目标跟踪算法。该算法基于
论文部分内容阅读
多目标跟踪作为计算机视觉的一个重要分支,在智能机器人、视频分析、人机交互等领域都具有最要的应用价值。近些年来,深度学习在多目标跟踪方向的应用极大地提升了跟踪的精度,但随着视频监控、自动驾驶等领域的出现,对多目标跟踪算法的实时性需求也越来越大。为了解决这些问题,本文着眼于在保证多目标跟踪精度的同时提升算法的速度,主要进行了以下几方面的研究:(1)提出一种表观和运动特征融合的多目标跟踪算法。该算法基于先检测后跟踪的框架,解决了目标跟踪中的遮挡问题,很好得达到了跟踪速度和精度的折中。算法主要分为三个阶段:第一阶段不使用图像信息,而是基于相邻帧之间目标的重叠率快速实现目标轨迹的串联,形成一系列目标轨迹碎片。第二阶段通过同时引入单目标跟踪器和卡尔曼滤波器来处理第一阶段中由于检测结果丢失和目标遮挡问题带来的匹配失败,利用目标与现有轨迹之间的特征距离来判断遮挡的发生。第三阶段通过反向跟踪重新找到消失又重现的目标,同时利用卡尔曼滤波器的运动预测能力减少了匹配过程中的计算量。实验表明提出的算法在MOT16和MOT17两个数据集上表现优异,相比于基于目标前后帧重叠率的多目标跟踪器MOTA指标增加了1-2%,目标ID转换减少了26.5%,且在跟踪速度上较之于其他先检测后跟踪的算法具有明显优势。(2)提出一种基于候选框选择机制的两阶段实时多目标跟踪框架。该框架基于检测和跟踪融合的方法,通过一个多任务的神经网络同时实现了目标检测和特征提取两个子任务。同时引入候选框选择机制,在保证跟踪速度的同时提升了跟踪的精度。该跟踪框架主要包括三个部分:第一部分基于R-FCN的结构设计了一个包含目标检测和特征提取两个子任务的神经网络,通过引入空间转换层提取更加鲁棒的共享特征层,引入对位置敏感的池化层来提高目标分类的辨别能力。第二部分通过构建统一的评分函数从检测结果和运动预测结果中选取置信度较高的候选框用于后续的数据关联,以此减缓不可靠检测结果对跟踪精度的影响。第三部分通过综合运用目标的空间位置信息和表观特征信息进行级联数据匹配,实现了目标轨迹的串联。实验表明,提出的多目标跟踪框架不仅在跟踪精度上与当前最优的算法相当,而且在跟踪速度上综合考虑了目标检测、特征提取和数据关联三个过程,具有明显优势。同时通过消融实验验证了跟踪框架各个部分的有效性。
其他文献
文学作品能够引发读者对于人性真、善、美的思考,因而具有独特的育人价值。本文聚焦英文小说类语篇,结合教学实例探讨如何挖掘小说类语篇的育人价值。在教学设计和实施中,教师可将育人与小说类语篇的文体特征及语言特点相结合,引导学生在探究语篇主题意义的过程中,辨析矛盾冲突,剖析人物心理和探析故事结局,学会认识和分析人性真、善、美及人与人之间关系的一些基本问题,从而促进思维的发展,达到育人目的。
当前,计算机相关技术在医学领域扮演了越来越重要的角色。而医学图像作为医学诊断中重要的组成部分,对于病患的病情判定,疾病的严重程度评估,以及康复预测等方面,都具有极其重要的意义。医学图像分割可以快速且准确的将医学图像中的病患区域和背景区域分割开,对于临床治疗和医学研究都有很好的辅助作用。深度学习的兴起大大提高了医疗图像分割的准确度,同时可以提取出医生很难定性定量的病理特征,甚至探究尚未发现的医学原理
吸烟有害健康,在公共场所吸烟,不仅污染空气,还有着造成火灾等灾害的隐患。对于一些严禁吸烟的场所,如机场、加油站、化工仓库等,需要采取监督和检测手段监视吸烟行为。通过人工监管或者烟雾传感器等手段检测,不仅耗费人力物力,检测效果也不甚理想。为解决吸烟检测问题,本文设计了基于机器视觉的吸烟检测算法,通过摄像头捕捉视频帧,使用基于深度学习的目标检测算法检测吸烟行为。本文创新工作如下:首先,针对实时性检测问
图像作为信息最直观的表达,应用广泛。随着前端数据采集传感器的发展,单源信息已不能满足日益复杂的需求。不同源图像具备不同特性,红外图像物体轮廓清晰、包含热度信息,但像素值低、细节缺乏;可见光图像与之相反。一个自然的想法,将这二者融合可获得更有价值的图像。另外,由于光学传感器成像原理的限制,单镜头无法保证画幅全对焦,将同视角下通过调整焦距获得不同景深目标的局部清晰图像对进行融合,以获得整体清晰的图像。
近年来,目标检测算法发展十分迅速,成果也非常显著,基于深度学习的检测算法更有着远超传统算法的性能。但是,该领域的发展仍然存在着一些问题和挑战。首先是在特定检测应用场景,比如人头检测中的虚警和漏检问题,限制了其在一些对计数准确度要求比较高的情况下的应用;其次,由于全监督下基于深度学习的检测算法一般需要大量的标签才能够训练出一个比较好的模型,为降低大量标注所带来的人力和物力上的消耗,出现了半监督和弱监
作为自然语言处理中的一项重要任务,机器阅读理解(Machine Reading Comprehension,MRC)已经受到了业界内广泛的关注,大量研究人员正积极探索这一新兴领域。其具体指的是让机器依据给定的文本信息来回答一个语义相关的问题,通常这是一个较复杂和漫长的流程,涉及到语义编码、信息融合、模块交互等众多方面。而多跳MRC则在此基础上提出了更高的要求,要求机器具备推理能力,本文就此任务展开
新型冠状病毒疫情的突发及在全球范围内的迅速蔓延,人们对于防疫用口罩的需求激增。防疫用口罩的种类繁多,各类适用的场景有所不同,在选择和使用上容易存在误区;大量的防疫用口罩产品的使用带来的环境负面影响不可小觑。此前,纺织领域的研究者已将碳足迹、水足迹及化学品足迹等生命周期评价方法的指标相结合,量化评估纺织业所产生的温室气体排放、水资源消耗和化学品污染相关的潜在环境影响。但是,国内外学者对防疫类口罩的环
图像目标检测是计算机视觉领域的一个基础任务,主要用于自动识别和定位图像中的特定目标,是许多人工智能技术的基础,有极其重要的军用民用价值。近年来,基于深度学习的目标检测方法取得了飞速的发展,也成功应用于一些工业场景。但是,可靠性不足、计算量过高、泛化能力差等问题大大限制了目标检测算法的应用范围。本文以大规模公开的数据集中的目标为对象,对图像目标检测算法展开了研究。研究工作包括三个部分:(1)总结了目
多目标跟踪任务需要在视频图像中确定目标位置、维持目标身份信息。通过将深度学习方法应用到数据驱动条件下来学习特征的思路已经在多个研究领域取得了很好的效果。因此,本文将深度学习方法引入到多目标跟踪框架中,期望提升跟踪的整体性能。此问题的研究具有重要的工业价值与广泛的军事应用前景。本文主要工作包括以下三个部分:(1)分析了多目标跟踪问题研究现状与发展趋势,对主流多目标跟踪公开数据集MOT16进行了详细说
随着近年来深度学习的不断发展,出现了很多结构复杂,性能优异的深度神经网络。越来越多的人工智能应用领域如计算机视觉、自然语言处理和语音识别等都使用深度学习方法解决问题。在构建深度神经网络后,需要给网络提供高性能的计算环境和大量的训练数据,才能充分发挥神经网络的优势。在现实生活中,很多领域难以获得足够的训练样本,因此会造成网络的性能下降。此外,传统的神经网络可扩展性较差也是深度学习方法的缺点之一。因此