面向无人艇的水面目标检测识别与跟踪方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yulong19841001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,各个国家日益重视海洋经济,而海洋装备的推广和应用对海洋经济的发展起着重要促进作用。水面无人艇作为其中一种智能型海洋装备,越来越多的科研工作者投入到了其相关技术研究中,这对水面无人艇的发展有重大意义。针对无人艇目标探测与自主巡航功能,本文重点研究了复杂水面环境下水面目标检测识别和跟踪算法。其中对于检测识别部分,本文根据深度学习中双阶段和单阶段检测识别算法提出了两种不同的解决方案。具体研究内容如下所示:(1)基于Faster RCNN的双阶段水面目标检测识别算法研究。在复杂水面环境下,将Faster RCNN算法直接应用到水面图像上时,会出现定位和识别不精确、小目标漏检频繁、检测速度缓慢的情况,未能提供稳定快速检测识别水面目标的需求。所以本章对此进行了五处改进。在水面特征提取阶段,本章利用多层特征结合方式重新构建了Res Net101提取特征网络结构,通过这种增强表征能力方式可以进一步提高检测和识别质量。在候选区域生成阶段,本章重新设计了先验框以及优化了候选框筛选策略,用于提高检测精度和时间性能。在检测阶段,本章利用了检测框投票策略来矫正目标检测框位置,用于获取更优的检测精度。在实验阶段,使用了各种数据增广方法来提高模型的鲁棒性和泛化能力。经对比实验表明,本章改进的算法在复杂水面环境下有最佳的检测识别性能,可以满足复杂水面场景下可靠快速检测水面目标的要求。(2)基于YOLOv3-TPdense的单阶段水面目标检测识别算法研究。在复杂水面环境下,将YOLOv3算法直接应用到水面图像上时,虽然可达到实时检测效果但检测精度低下,常有误检和漏检现象。所以在此基础上提出了一种YOLOv3-TPDense算法。首先在提取水面特征阶段,利用改进的TPDense密集块来替代Dark Net53网络中低分辨率的降采样层,以便增强特征传播、促进有效特征重用以及提高网络性能,此阶段会更容易获取丰富高效的特征。然后再利用多尺度特征来对不同尺寸目标进行检测,其中涉及到了使用K-means聚类算法重新设计多个尺度的先验框,以便提高定位精度和时间性能。在网络训练阶段,本章改进了损失函数,用于获取更优的检测模型。同样为了提高模型的鲁棒性和泛化能力,使用了数据增广技术来扩充训练样本。经实验表明,该模型在检测质量和检测速度方面有更好的均衡能力,可以达到实时准确检测水面目标的需求。(3)基于KCF-Multi In SORT的水面多目标跟踪算法研究。通常水面目标跟踪算法过分依赖检测器检测效果,倘若检测效率不高并漏检频繁,再加上ID切换频繁、目标存有遮挡等问题,会严重影响水面目标稳定实时跟踪效果。由此提出了一种不完全依赖于检测算法的跟踪框架—KCF-Multi In SORT算法。首先将水面视频序列通过YOLOv3-TPDense算法来稳定快速获取检测信息,并将检测信息送入到Multi In SORT算法和KCF算法中。当检测信息丢失时,KCF跟踪器将利用上一帧水面目标检测信息来对当前帧的水面目标进行跟踪,通过此跟踪信息再利用Multi In SORT算法来匹配和更新跟踪器;相反当检测全部成功时,只需在KCF跟踪器中记录检测信息,不需要启动该跟踪器。经实验表明,这种不完全依赖检测算法,结合深度学习跟踪算法和传统跟踪算法的思想可以有效改善上述的难点和不足。并且在水面无人艇进行多目标跟踪场景中能够明显提高跟踪效果,具有更稳定的跟踪功能。
其他文献
随着移动设备和动态网页技术的发展,智能设备中对浏览器性能需求不断提高,众多网络应用都开始大量使用JavaScript语言来为用户提供更加丰富的服务。在这样的背景下,JavaScript引擎的性能成为影响浏览器整体性能的最关键因素之一,进而影响用户的上网体验。目前,JavaScript即时编译引擎能够提升x86、ARM架构下JavaScript语言的解析速度,但该引擎尚未支持国产处理器。首先给出了J
交通运输是国之重器、强国之本。作为交通运输的一种,铁路运输凭借其成本低廉、受环境影响小等优点,已经成为人们日常出行和货物运输的重要方式。然而机车一旦发生故障,后果是难以预料的,轻则需要为其支付昂贵的维修费用,重则会造成机毁人亡的严重后果。机车的制动系统是机车的核心结构,因此针对机车制动系统开发一套满足需求的故障诊断专家系统具有重大的意义。另外,机务段工作人员在维修机车之后都会留下详细的诊断记录,在
基于词向量技术和预训练模型的深度学习方法虽然对于任务型对话系统效果提升明显,但是存在模型计算量和参数量过大的问题,对部署模型的服务器资源条件要求很高。如何在保持模型效果的情况下,尽量减小模型的参数和体积,对于对话系统落地有着非常重要的意义。使用多任务学习和低秩分解技术对传统任务型对话系统的自然语言理解和自然语言生成模块进行了改进,并使用改进的模型实现了一个完整的建筑领域文档对话系统。1)为兼顾自然
进入21世纪以来,人们的日常生活越来越离不开网络。互联网已经成为社会不可分割的一部分,而网络的运用需要通信设备来支持。现如今有线网络已经不能满足人们随时随地想连接互联网的需求了,于是近几年无线局域网的发展迎来了日新月异的发展。无线局域网给人们带来的便利是无限的。所以新型无线网卡驱动的开发,对于厂家来说是一个不错的机遇。本论文在利用厂商已有的无线网卡硬件的基础上,移植Linux网卡驱动里面的核心代码
数字音频在生活中离线场景的使用逐渐增多,数字音频以二进制存储的方式,作为一种信息载体,有易复制,易编辑的特点,可以携带大量的隐私信息,甚至部分音频包含重要的国家机密信息,如果被篡改就会对国家的安全造成严重威胁。国内外的对音频文件的加密保护主要是通过一些加解密算法,但是这些加解密算法在对海量文件数据的处理时,有安全差和加密速度慢等问题。基于此,针对常用的音频格式WAV和AMR,提出了结合区间算法的内
近年来,随着深度神经网络的发展,目标跟踪算法取得了长足的进步,已经成为计算机视觉技术最重要的研究热点之一。同时,基于孪生网络的目标跟踪算法以其巨大的速度优势和良好的跟踪性能在目标跟踪领域得到了广泛的关注和应用,成为了目标跟踪领域的主流算法。当前大多数目标跟踪算法都以anchor的方式实现对目标尺度的评估,我们认为可以将目前目标检测领域中的anchor-free方法应用到跟踪领域中,并实现与当前目标
细粒度图像识别是一类研究如何从同一大类别中区分出不同小类别的算法任务。该算法的技术挑战在于不同类别下的物种其差异仅存在于极其细微的部位(例如,鸟的眼睛、嘴巴或者爪子等);而同一类别下的物种由于光照、姿态或背景等原因导致其表现出较大的差异。因此,如何精确找出具有区分性的区域并提取丰富有效的细粒度特征成为了图像细粒度识别任务的研究重点。当前细粒度图像识别方法存在的问题:第一,最具区分性部位被遮挡或者难
本篇论文主要讨论了姿态估计的轻量级网络设计和实际应用。人体姿态估计是计算机视觉的一个较为重要且困难的任务,目的在于检测出图片或视频中的人体关键点,并对关键点连线进行运动分析。当前人们对于生活质量的要求逐渐提高,人体姿态估计可以应用在视频监控,人机交互,驾驶员辅助驾驶等多个领域,对智能生活具有重要的意义。同时,本文将姿态估计的方法应用在矩形物体的关键点检测中,可以快速定位名片,身份证,银行卡等矩形物
新基建是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。一方面,"新基建"包含的三项(信息、融合和创新)基础设施,是全社会的信息化基础设施,为应急管理部门提供了强大的基础设施保障;另一方面,应急管理方面丰富的应用场景,对"新基建"有着紧迫的需求,可以拉动"新基建"建设。为更好地满足新时代应急管理工作需求和应急指挥实战
随着计算机技术的快速发展,图像处理、计算机视觉技术广泛应用于目标检测与识别、智能交通、工业生产等领域。清晰可靠的影像资料对计算机视觉算法的发展与应用尤为重要,当影像监控设备在雨天进行室外作业时,其捕获的视频图像会包含大量的雨水条纹,在雨水条纹遮挡区域内,图像的背景细节将会部分丢失,甚至完全丢失,不利于后续图像处理工作的进行,严重制约了户外计算机视觉系统与计算机视觉算法的应用。本文对当下视频图像去雨