【摘 要】
:
深度学习相关理论的进一步发展与计算机硬件水平的不断提高,为目标检测领域的发展提供了巨大的推力。通用的目标检测算法对于大,中目标已取得了不错的成果,但对于小目标的检测效果往往不尽人意。与此同时,航拍图像对于城市交通、环境监测等领域的地位越来越重要,而航拍图像中存在着众多的小目标。因此,基于航拍图像的小目标检测是一个十分具有前景的方向。小目标检测的难点在于像素占比小,特征提取困难,同时目前主流的检测算
论文部分内容阅读
深度学习相关理论的进一步发展与计算机硬件水平的不断提高,为目标检测领域的发展提供了巨大的推力。通用的目标检测算法对于大,中目标已取得了不错的成果,但对于小目标的检测效果往往不尽人意。与此同时,航拍图像对于城市交通、环境监测等领域的地位越来越重要,而航拍图像中存在着众多的小目标。因此,基于航拍图像的小目标检测是一个十分具有前景的方向。小目标检测的难点在于像素占比小,特征提取困难,同时目前主流的检测算法复杂度过高,网络结构加诸于小目标之上存在冗余。针对上述存在的问题并结合航拍图像检测要求准确性与实时性的实际应用场景,本文以YOLOv5作为研究对象进行了相关研究,主要工作概述如下:针对小目标在图像当中占比小,难以提取有用信息的问题,通过加深特征金字塔与路径聚合网络,增强模型浅层特征复用能力,进一步提升浅层特征信息的抽象信息以及深层特征信息的细节信息,加强模型的特征学习能力。同时,利用上述结构新增针对更加微小目标的检测层。另外,由于原始网络结构对于航拍数据集而言存在冗余,因此将其针对大目标的特征提取与融合部分及预测分支进行裁剪。由于YOLOv5采用最近邻上采样算法,该算法以自身像素值填充邻域的特点导致其存在特征图局部信息丢失问题。本文对上采样算法进行改进,采用轻量级通用上采样算子CARAFE。依据特定输入进行预测,并利用预测的上采样核辅助特征重组过程。最终对上述工作进行整合,本文将其称为PCHead模型。在RSOD数据集上的实验结果表明,PCHead模型的m AP值由97.1%提升至98.2%,且参数量由1,761,871降低至1,062,791,避免了网络结构冗余而带来的无效卷积运算,降低了模型复杂度。针对现有CNN体系中strided convolution和pooling结构导致的细粒度信息丢失及特征学习效率低下问题,本文采用全新的CNN模块,即SPD-Conv,取代原始网络中的strided convolution和pooling结构,以此尽可能的保留所有判别特征信息。由于YOLOv5骨干网络CSPDarknet53本身结构复杂,运算量大,难以满足航拍图像检测实时性的实际需求,本文以Ghost卷积对其进行替代。实验结果表明,上述工作所得模型的m AP值提高至97.2%,并且参数量减少为1,323,275,符合预期效果。最后将前述工作进行整合,本文将其称为PCSG模型。在RSOD数据集上的实验结果表明,PCSG模型的m AP值提升至97.8%,且模型参数量仅为1,368,823,充分验证了本文工作的有效性。
其他文献
城市燃气管网系统是城市重要的能源供应系统。燃气负荷预测是其非常重要的功能,对城市燃气合理并安全的利用具有举足轻重的意义。在现今众多的燃气预测方法中,门控循环单元(GRU)已经成为一个主流方法,能较好的挖掘燃气负荷数据的自相关特征及其他特征。本文在采用GRU进行燃气负荷预测的研究中发现该方法在时序维度上捕获信息的能力仍旧显得较弱,很难得到精确的预测结果。对此常用的解决方法是采用注意力机制强化时序信息
2021年,武术中考在上海市正式开启,初中学校武术得到了全面普及与落实。这也代表着国家对民族文化以及民族传统体育的重视度越来越高,国人对民族传统体育的关注度也越来越高,武术项目作为育人、文化传承的载体任重而道远。但武术项目在学校中的发展存在着许多问题,武术在学校如何实施也是社会各界都在关注与研究的问题。因此,本文通过对上海市十六个区各个中学的武术实施情况进行调查,分析出上海市武术实施的影响因素并提
半导体激光器拥有体积小、波长覆盖广、相关性高、可批量生产、可单片集成化等优点。中红外波段是大气的窗口波段,且覆盖很多重要分子的特征谱线,因此对该波段光源的研究已成为目前世界上的热门课题。锑化物涵盖Al、Ga、In、As、Sb等Ⅲ-V族半导体元素,是目前中红外器件首选材料。而有源区带间级联的结构特点使器件能拥有比较低的电压,阈值电流密度和功率损耗。目前以Al Ga As Sb作为波导包层的ICL的研
光场技术作为一项前沿的技术推动光场相机的应用,光场图像是多个摄像机从不同角度拍摄同一场景所获得的图像的集合。近年来光场成像设备不断发展,光场图像处理被广泛研究。但由于光场相机的传感器分辨率有限,光场相机面临着空间分辨率和角度分辨率之间的权衡。为了捕捉场景中光线的强度和方向,光场相机无法同时获得高空间分辨率和高角度分辨率的图像。针对以上问题本文对视图一致性的光场空间超分辨率重建和光场角度超分辨率重建
为适应不断变化的软件需求,开发者需要通过软件变更来实现软件的维护和修改。过于频繁的软件变更预示着代码存在可维护性问题,尽早地识别具有更改倾向的代码类可以极大地提高维护效率和质量。在对软件类的变更倾向研究中,已有通过代码异味相关信息进行软件类级变更预测的实证研究,代码异味强度在对易变类的预测中表现良好。社区异味是代码异味概念在开源软件开发社区中的衍生,可用于识别开源软件开发社区中存在的不良沟通和协作
在传统摄影中,相机通过记录不同方向的光线形成像素值,但这导致了光线方向信息的丢失。光场相机克服了这一缺点,在相机主镜头和图像传感器之间插入微透镜阵列,实现了视点的密集采样,并将测量数据转换为不同视点的多视点光场图像。光场图像包含了场景的深度线索,在人脸识别、自动驾驶、三维重建等方面有着有趣的应用。本文基于注意力机制优化深度学习框架,提升模型训练效果,设计构建了光场深度估计算法和光场超分辨移位窗口优
热带气旋是一种强气旋性涡旋,其在热带海洋上形成,并具有暖心结构。近几十年来,在热带气旋的路径和强度预测方面取得了显著进展,然而有关热带气旋的生成预报仍然充满挑战。因此,准确预测未来某一时刻热带气旋的生成时间和位置对于政府相关部门制定防灾减灾计划至关重要。现如今,与热带气旋相关预测的方法主要有:数值、统计和统计动力预报。数值预报常用于台风生成的预测,而统计动力模型则基于气候学和持久性来预测未来的强度
随着云、雾、边缘计算及物联网的快速发展,网络中信息的安全传输变得越来越重要。信息的安全传输内容包括数据、图像、音频和视频等,图像包括传统图像和光学图像。随着光学技术和网络技术的发展,光学图像在网络中的安全传输也变得越来越重要。近年来,基于密码学的非对称光学图像加密既克服了传统DRPE和变换域加密的线性问题,也改善了PTFT光学非对称加密技术安全性不足的缺陷。但是,在基于RSA非对称算法的光学图像加
图像分割是计算机视觉中的基本任务之一,它是对图像进行分析理解的前提。图像分割效果容易受到噪声,光照和背景等各种因素的影响。因此,很难提出一种通用的算法来实现图像分割。聚类算法已被广泛应用于图像分割,其中,密度峰值聚类算法(DPC)简单高效,是常用的图像分割算法之一。由于DPC及其改进算法不是专门为图像分割设计,分割结果不一定能同时满足主观感觉和客观指标。针对上述问题,本文提出了基于相对扩展密度峰值
随着机器人和传感器技术的高速发展,移动机器人的应用场景逐渐从无人化工厂转移到生活服务业中。其中,SLAM(Simultaneous Localization and Mapping)技术是移动机器人领域的核心技术之一,即同步地进行自身定位与环境地图的构建,结合路径规划技术能够实现移动机器人的自主导航。定位、建图和路径规划均依赖于机器人搭载的外部传感器对周围环境进行实时感知。激光雷达以测量精度高、抗