低空无人机视觉目标检测关键技术

来源 :周靖凯 | 被引量 : 0次 | 上传用户:feylodiw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
受益于卓越的灵活性和便携性,低空无人机视觉广泛应用于能源、基建、农业、商业、公共安全等领域,低空无人机视觉目标检测已成为当下的研究热点。相比通用目标检测数据,低空无人机视觉数据小目标占比更多,平均分辨率更低,相对尺度更小,小目标检测是低空无人机视觉目标检测的重点和难点。尽管深度学习方法在通用目标检测领域已获得巨大的成功,但在检测低空无人机视觉小目标时,现有方法存在多方面不足:1)数据预处理:现有图像级数据预处理方法通常将输入图像放大至单一尺度或使用图像金字塔,以提升小目标的检测精度。然而,按单一放大尺度进行目标检测,难以应对巨大的目标尺度跨度;使用图像金字塔将增加训练、推理时间,而且容易引入虚警。2)主干网络:静态卷积限制了主干网络的容量和灵活性,而动态滤波器开销巨大,很难作为基础组件构建大型主干网络。另一方面,尽管Swin Transformer主干网络效果卓著,但本文发现其局部自注意力(Local self-attention,LSA)性能受限,仅等效于深度卷积(Depth-wise Convolution,Dw Conv)。3)高层网络:现有检测模型的高层网络未能适配低空无人机视觉目标检测,表现在:颈部网络未能择重增强大尺度特征,而大尺度特征对小目标检测尤为关键;区域生成网络的锚点超参数不能适配低空无人机视觉的目标分布,制约模型的训练和推理,而手工设置合适的超参数难度较大。针对上述问题,本文工作重点和贡献如下:提出尺度自适应的图像裁剪。统计发现低空无人机视觉图像中目标尺度与拍摄距离密切相关,而与透视现象关系较弱。针对这一特点,研究并提出一种新的图像级数据预处理方法,即尺度自适应的图像裁剪(Scale Adaptive Image Cropping,SAIC)。SAIC定义反映拍摄距离的归一化平均目标相对尺度(Normlized Average Object Relative Scale,NAORS),设计尺度等级分类模型,并基于尺度等级缩放、裁剪图像,从而达到在放大小目标的同时减小目标之间尺度跨度,并且避免引入虚警。基于SAIC的FPN检测器赢得2018年Vis Drone比赛的第三名。提出解耦动态滤波器主干网络。静态卷积限制了主干网络的容量和灵活性,而动态滤波器开销巨大。为此,研究并提出轻量级的解耦动态滤波器(Decoupled Dynamic Filter,DDF)。DDF的关键思路在于不直接生成动态滤波器,而是生成解耦的空间动态滤波器和通道动态滤波器,并在后续滤波器应用环节合并两者。DDF可以无缝替换Res Net的标准卷积层,稳定提升Res Net精度,同时降低模型参数量和计算开销。最后,本文将DDF-Res Net作为主干网络应用于低空无人机视觉目标检测。实验表明,基于DDF-Res Net的检测器能在更少参数量下取得更高的检测精度。提出增强型局部自注意力。尽管Swin Transformer主干网络已取得巨大成功,本文研究发现Swin Transformer中LSA的性能发挥受限,仅等效于Dw Conv。通过对比研究Dw Conv、动态滤波器和LSA,本文指出相对位置嵌入和邻域注意力应用是限制LSA性能的关键因素。在此基础上,本文进一步提出增强型局部自注意力(Enhanced Local Self-Attention,ELSA),改善Swin Transformer主干网络性能。实验表明,所提ELSA-Swin能显著提升图像分类、图像分割和低空无人机视觉目标检测等多种任务的精度。提出稠密颈部网络和锚点自适应策略。现有检测模型的高层网络未能适配低空无人机视觉目标检测。具体来说,颈部网络未能择重增强大尺度特征;区域生成网络的锚点超参数不适配低空无人机视觉数据的目标分布。针对颈部网络的不足,本文引入内容相关的上采样算子,设计多层稠密横向连接结构,构建稠密颈部网络,择重增强大尺度特征。针对锚点超参数设置,本文研究并提出锚点自适应策略,在模型训练时自动优化锚点超参数,使得检测模型对手工设置的初始超参数不敏感。实验结果表明,所提稠密颈部网络和锚点自适应策略均能有效改善基准模型,联合使用两者能进一步大幅提升低空无人机视觉目标检测精度。
其他文献
明清时期粤中私家园林作为岭南园林集大成者,对粤中私家园林园址及相地的研究更有利于总结出岭南园林的地域性特色,发掘古人人居环境的营造智慧。本文以明清时期粤中地区私家园林为研究对象,通过文献查阅、实地调研、历史地图、分析归纳、比较研究等方法,梳理总结明清时期粤中私家园林的分布特点、园址特征和相地手法。以《园冶》相地思想为基础,结合相关史料解读与理论分析,探索粤中私家园林相地的地域特色与手法。研究希望补
学位
对于物质的结构和功能之间构效关系的研究一直是材料科学等领域所关注的主题之一。而纳米结构的可控构筑,实现对物质在纳米尺度上的加工,是研究纳米材料复杂功能性的基础。与传统“自上而下”(top-down)的微纳加工技术相对应,“自下而上”(bottom-up)的自组装(self-assembly)技术是近年来广受关注的在纳米尺度创造新的结构、新的物质,进而实现新的功能的重要方法之一。树枝状分子作为一类具
学位
目前涵道飞行器研究主要集中在悬停点附近垂直模态的控制与应用,本文侧重于涵道风扇动力新构型飞行器水平模态控制及其多模态转换机理研究。涵道风扇动力尾座式垂直起降飞行器是一种新型的尾座式飞行器,该飞行器具备垂直飞行/水平飞行/过渡飞行等多种飞行模态。由于采用了涵道风扇与组合控制舵面构成的矢量动力系统,其低速、大迎角状态下控制能力更强,具备更优秀的过失速机动性能。但涵道风扇的引入也极大地增加了其自主飞行控
学位
近年来,越来越多的服务部署在云中,数据中心的规模随之快速扩张。数据中心高速发展的同时也带来了高能耗问题,能源成本的提升和绿色环保的要求迫使产业界将关注重点从性能转移到数据中心的能源效率。虽然数据中心的PUE值近几年来得到了稳步提升,但是服务器层面的能效仍然是一个问题。为了提高服务器的能源效率,首先需要能够测量和评估这种能源效率,基准测试是科学评估的一种方式。目前基准测试存在两个挑战:1)基准套件中
学位
在当今世界传统的化石能源枯竭以及生态环境日益恶劣的局面下,本论文着重围绕光催化技术在新能源开发和污水处理两个方面开展研究。针对传统光催化基础性半导体材料Cd S稳定性差且光腐蚀性强以及光生电子-空穴对容易复合的科学性问题,设计并研究了以二维纳米材料Mo S2,MXene Ti3C2和石墨烯为助催化剂协同Cd0.5Zn0.5S的复合型光催化材料体系以增强光催化的性能。本论文主要的研究内容及成果如下:
学位
齿轮传动在机械传动中占据重要地位。随着机电产品的快速发展,齿轮产品的应用和需求不断增加,使齿轮产品朝着精密化,轻量化,小型化,绿色化的方向发展。另一方面,应用于高端智能装备的高精密齿轮减速器对我国制造业的健康发展有着重要的影响。面对蓬勃发展的小型机电产品和高精密齿轮减速器的巨大需求,研究新型齿轮传动机构具有重要的价值。陈扬枝教授发明的线齿轮是一种新型齿轮传动机构,其设计理论是空间共轭曲线啮合理论。
学位
在基于碳-碳及碳-氮三键单体的聚合反应中,炔基单体的硫氢化聚合与胺氢化聚合作为高效便捷的合成反应,常用于制备主链含杂原子的聚合物。其中,吸电子基团取代炔基氢原子的“酯基活化炔和羰基活化炔”分别成为了制备不饱和杂原子聚合物的重要反应单体。然而,目前基于炔基的聚合反应大多采用的催化剂含过渡金属,制得的产物中存在金属残留难以去除的问题。在合成化学中,炔与羟基化合物的烷氧化反应因其合成方法简便且效率高,是
学位
多路径传输控制协议(MPTCP)允许传输控制协议(TCP)使用多个传输路径来最大化信道资源使用。MPTCP数据包调度器通过调度算法对各个路径的状态进行评估,根据不同的状态进行数据包调度。然而,随着网络环境变得越来越复杂,以及上层应用对网络传输的服务质量需求越来越高,传统的调度算法已无法适应当前的网络环境。因此,对MPTCP调度算法进行研究有助于提高MPTCP的传输效率和对网络环境的适应。本文利用深
学位
随着移动互联网和5G通信技术的高速发展,移动边缘计算中计算密集且时延敏感型任务的计算卸载问题受到了学术界的广泛关注。本文将分别针对移动边缘计算中的多边缘服务器覆盖场景以及移动边缘计算-设备对设备(MEC-D2D)协助计算场景,结合人工蜂群算法、二分法、凸优化理论以及贪心算法,对场景中的任务卸载时延优化策略进行研究。主要工作包括:1、在多边缘服务器覆盖场景下,提出一种考虑公平性的任务卸载与资源分配算
学位
自H.Staundinger提出大分子的概念以来,高分子材料迅速发展,对人类生活水平的提高和社会的发展产生了极大的推动作用,但是如何实现对大分子的快速精准合成并利用超分子工程调控其结构从而得到所需的具有特种性能的材料仍是很大的挑战。巨型分子是一类具有精确化学结构的大分子,其基本合成模块为纳米粒子分子,例如富勒烯、多面体寡聚倍半硅氧烷(POSS)和金属杂多酸(POM)等。纳米粒子分子具有精确的修饰位
学位