论文部分内容阅读
视觉人车检测和跟踪是计算机视觉领域的基本内容和研究热点,在视频监控、智能车辆驾驶和机器人导航等领域有着广泛的应用,这些应用都能够大大地加速物流行业信息化、自动化和智能化进程。本论文基于计算机视觉技术和深度学习方法,对人车检测及跟踪算法展开研究。对于人车检测任务,为了解决目标检测中图片分辨率大和目标小的问题,设计了多尺度裁切(crop)训练和多尺度测试策略。对于人车跟踪任务,针对两种不同场景和条件,基于孪生网络和相关滤波原理,分别设计了端到端的目标跟踪方法和结合重检测的长期跟踪方法。本文的主要研究工作如下:(1)为了解决目标检测中图片分辨率高且小目标多的问题,设计了多尺度裁切训练和多尺度测试策略,并采用实例分割方法MaskRCNN。在训练阶段对原图进行多尺度的裁切,在测试阶段将原图进行多尺度放缩,有效解决了大分辨率图占显存过高的问题,并提升了对小目标识别的效果。采用Apolloscape数据集进行评估,算法表现出优越的效果并在CVPR 2018 WAD(Workshop on Autonomous Driving)挑战赛中排名第四。(2)为了解决目标跟踪中目标尺度、外观变化等问题,基于孪生相似度网络,提出了一种端到端跟踪器LR-AFNet。该方法使用注意力模块融合深浅特征来提取更具辨别力的特征,并通过边界框回归分支精准地预测目标位置和尺度。首先,重新设计骨干网络提取特征以提高定位精度。其次,使用注意力机制融合深层和浅层特征,以获得更有辨别力的特征。最后,将边界框回归分支添加到相似度网络,获得二次回归结果,并形成端到端训练框架。实验表明,相比现有CFNet、SINT、CSR-DCF等方法,LR-AFNet在几个标准数据集上达到了有竞争性的性能。与论文第三部分的长期跟踪器相比,LR-AFNet针对的是一般的跟踪场景,训练时间长,但优势是端到端的网络结构化简了流程。(3)为了完成复杂场景中的长期视觉跟踪任务,解决目标遮挡、消失、重新回到视野等问题,本文提出了一种基于相关滤波器的长期跟踪器。此方法由跟踪器、置信度模块和重检测器组成,充分结合了目标检测和跟踪的优势。首先,在相关滤波跟踪器中,通过嵌入CN-N金字塔结构和自适应深浅特征融合方法来提取多尺度搜索区域的特征,提高跟踪器的尺度适应性和鲁棒性。然后,使用预测质量评估(PQM)指标根据响应图的质量来判断是否跟踪失败。最后,当跟踪失败时,扩大搜索范围,应用检测器进行重检测,并设计一种目标匹配的方法,对干扰物体进行筛除,确定跟踪目标。应用本算法对标准数据集OTB和VOT进行了相应的实验。相比现有ECO、CCOT、LCT等方法,该算法提高了多个指标的跟踪性能,对复杂场景的长期视觉跟踪具有较强的鲁棒性。与论文第二部分的端到端跟踪器相比,本算法参数较多,过程繁琐,但优势是训练所需资源较少,对长期场景下目标遮挡、消失等问题解决得较好。