基于深度神经网络的无人机行人检测方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:happer34
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人机可以为深入理解和分析行人行为供独特视角,基于无人机影像的行人定位与识别已经成为无人机图像处理的热门研究领域。而人作为社会活动和军事活动的主体,对其在无人机视角下进行准确且快速的检测与识别具有重要的实用价值。针对无人机场景下的行人目标具有密集、遮挡严重、特征模糊、尺度变化大、中小目标多等特点,并考虑到实际应用的高效性,本文对现有的通用目标检测方法进行了深入探索,并出了一系列高效的基于深度卷积神经网络的无人机行人检测算法。本文主要的研究内容如下所述:(1)出了基于改进YOLOv4-tiny的无人机行人检测方法。针对基于深度学习的检测方法在嵌入式平台上性能受限这一问题,该方法通过引入结构重参数化改进骨干网络CSPDark Net19以高模型的特征取能力和运行速度。与此同时,引入K-Means++算法改进锚框聚类算法的聚类中心初始化策略以高锚框聚类算法的稳定性,并使用遗传算法优化锚框聚类结果。最后,在收集并采用水平框标注的无人机行人数据集上进行实验,证明了所方法的有效性。(2)出了基于特征增强与自适应注意力的无人机行人检测方法。针对无人机成像特点对行人定位与识别带来的干扰问题,该方法采用轻量级PAFPN的架构实现特征融合,引入即插即用的特征增强模块增强检测特征图中的中小目标特征信息。之后,加入自适应注意力模块缓解特征融合过程中特征通道减少带来的信息丢失。实验证明,该方法可以有效减少中小目标的漏检。(3)出了基于轻量级解耦检测头的无锚框无人机行人检测方法。针对基于锚框的检测方法泛化性差这一缺陷,该方法基于像素点进行分类与边界框回归,通过增加正样本的数量来高多尺度目标检测性能。该方法引入基于深度可分离卷积的轻量级解耦检测头来避免分类任务和回归任务的特征冲突。与此同时,为了升训练模型的收敛速度和稳定性,引入了基于辅助学习模块的训练策略。该方法充分利用了无锚框检测方法简单、高效、快速的特点,并与辅助学习模块相结合,有效的高了检测算法的整体性能。
其他文献
自然场景任意形态文本识别是计算机视觉和自然语言处理的交叉研究领域,是研究实物对象和语义关联的重要桥梁。过去的十几年,受限场景的文本识别问题已经基本解决,但在通用场景中,目前算法的识别率仍然有限。应用层面上,小规模的神经网络是主流模型,能够实现较高的响应速度,然而识别率较低。识别率先进的方法普遍使用并行注意机制进行视觉特征建模,然后引入语言信息弥补视觉信息的短板,但受限于语言模型的能力,语言信息没有
学位
微波无线传能是以微波为载体,通过收发天线传递能量的无线传能方式,相比以电缆作为载体的有线传能方式有着明显优势,在军工和民用方面都有着广泛应用前景。微波无线传能系统的收发天线多采用阵列天线,接收阵列天线会获得多路直流能量,常采用直流合成方式汇成一路直流能量来为负载供电。然而现有整流电路的等效模型不准确,导致直流合成的效率分析难以精确给出。在整流电路方面,二极管的特性限制了整流电路的功率容量,晶体管由
学位
电子封装小型化促使高性能芯片封装设计进入三维堆叠阶段的同时,也寻求高可靠性设计与分析方法来满足封装形式的多样化。叠层式封装(Package on Package,PoP)是三维堆叠封装中工艺较成熟的主流堆叠封装形式之一。先进PoP封装中,单个芯片模块采用多层裸片堆叠进行小型化设计,互连(焊球)的数量也因此增加。为了精准高效的分析PoP封装的力-热可靠性,本文主要解决了含有复杂布线和多层结构的基板力
学位
频率选择表面(Frequency Selective Surface,FSS)是一种对电磁波具有选择性能的周期性阵列结构,其优异、灵活的滤波特性使其在飞行器的隐身设计领域具有广阔的应用前景。随着应用平台向高频带、高性能方向发展,并且表面形状往往为复杂曲面,制造公差、装配误差以及曲面投影误差等随机因素对FSS性能的影响变得不可忽视。然而,传统的设计方法着重关注平面单元性能的实现,无法保证不确定因素影
学位
随着电力电子技术的快速发展,超宽禁带半导体氧化镓凭借其4.6-4.9 e V的禁带宽度,以及临界电场高达8 MV/cm的优越物理特性成为新一代功率器件领域的研究热点。然而,β-Ga2O3由于目前缺乏合适的受主,无法制造出p型β-Ga2O3,因此大部分的研究都集中在单极器件,包括横向和垂直结构的场效应管和二极管。其中,垂直结构被认为是未来2-3年最有前景的商业化产品。对于未来β-Ga2O3的发展而言
学位
本文是一篇关于专利翻译实践的报告。伴随着现代科技发展脚步的加快,科技翻译已然成为国际间相互交流的一种重要内容。因此,科技翻译特别是科技日语翻译对更好地学习和引进外国先进技术起到重要作用。鉴于专利翻译具有清晰的逻辑结构,准确的表达方式,以及独特的专业术语,翻译时不仅仅要注重语句的表达,对原文的专业知识背景也需要有一定的了解。因此,我们有必要对专利项目翻译进行深入的研究与探讨。本文是根据延边汇延翻译咨
学位
给定一个视频和一个视频相关的自然语言问题,视频问答任务输出问题的答案。结合计算机视觉和自然语言处理的视频问答任务接近通用人工智能,有很高的研究价值和广阔的应用场景。视频中不同对象之间的关系所构成的结构信息非常复杂,制约了理解和推理,特征的融合与交互是视频问答的关键。得益于图神经网络在结构信息上的表征能力,跨模态交互可以被建模成图神经网络的更新。随着多模态融合技术的发展,基于Transformer的
学位
当前我们国家已经进入中国特色社会主义新时代,中国梦翻开了新的篇章,科学技术的发展交流,已经成为大国之间交流必不可少的话题。国家要强大,要发展,就离不开科学技术的支持。日本的科学技术能力历来领先于世界发展水平,笔者选择专利文献《固定ガスメータの判別システム》进行翻译实践,希望能够更好地促进中日两国之间的科技文化交流,提高我国科学技术水平。本报告共分为五部分。第一部分笔者对实践的具体情况和翻译文本的文
学位
随着国际化交流的日益发展,科学技术的飞速进步,和对外交流程度的日益加深,翻译已成为在社交,科技,知识全球化共享的必要推进方式之一。语言服务翻译领域也因而进一步扩大,所涉及的翻译内容也随之呈现多样化。随着翻译量的巨幅增长,翻译环境的改变,翻译人员的个人能力及综合素质也要与之全面提升,翻译质量的标准和规定也更加细化和严格。那么本次翻译由横河信息系统(大连)有限公司委托,由笔者参与的9人组成的小型翻译团
学位
随着遥感技术相关领域的飞速发展,遥感影像的应用需求也日益增加。遥感图像语义分割,作为一项理解遥感影像的关键视觉任务,已广泛应用于城市规划、智能农业、环境保护等领域。近年来,深度学习的快速发展促进了遥感图像语义分割性能的不断提升,但由于遥感图像数据本身具有图像尺度大、成像范围广、背景信息复杂多变的特点,现有方法仍然在分割多尺度物体时面临分割精度低的挑战。本文针对这些挑战,对遥感图像语义分割展开了研究
学位