基于FPGA的目标检测网络SkyNet算法优化及硬件加速研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lrh791020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测广泛用于自动驾驶、机器人视觉、视频监控以及航天航空等领域,随着深度学习的发展,基于卷积神经网络的目标检测算法逐渐成为主流,但卷积神经网络庞大的计算量和参数量使得其难以在边缘设备上得到应用。本文针对卷积神经网络在边缘设备上推理效率低、部署困难和实时性差的问题进行研究,从软硬协同优化的角度出发,设计基于FPGA的目标检测网络加速器。首先,将SkyNet作为基础网络,对其进行结构优化,得到适用于FPGA加速器的网络结构。优化主要包括:对第一层逐点卷积进行通道剪枝,以适应加速器的并行度;对分支结构进行优化,用跳跃连接的分支结构替代原有的重排序结构,提升外部缓存读写效率。经结构优化后的SkyNet在模型尺寸上减少了13.6%,计算量减少了15.0%,精度仅下降1.67%。更进一步地,为减少浮点计算对FPGA片上资源的消耗,对优化后的SkyNet进行量化,融合相关参数并定点化,所有参数均定点化后的SkyNet在模型尺寸上减少了73.4%,精度仅下降2.04%。然后,以ZYNQ器件为目标平台,设计SkyNet专用加速器并给出加速器整体结构框图,充分结合了SkyNet网络的计算特点。片上PS端负责配置加速器参数、进行非极大值抑制以及传输图像数据和预测结果;片上PL端负责对SkyNet的核心计算模块进行硬件实现,并同时采用并行策略和任务级流水策略来加快前向推理速度。此外,为充分利用DRAM带宽,设计了相应的特征图合并存储模式,使推理速度进一步提升。最后,在ZC706评估板上对SkyNet加速器进行实现,并测试功耗及推理耗时。实验表明,对于分辨率为416×416的图像,推理一次的平均耗时为13.12ms,功耗为16.992W,加速器算力达到201.18GOPS,能效为11.84 GOPS/W,在同类工作中表现较优,具备实际场景下的应用能力。
其他文献
自主水下航行器通过编队协作方式可突破单航行器在环境感知、信息决策和任务执行等方面受到的限制,极大提升系统性能。然而海洋环境复杂,水下导航、控制、通信能力受限,通过设计合理有效的编队航路可以降低控制过程的复杂度,减少航行器间通讯的信息量,提高编队任务的成功率。针对编队航路规划问题,提出柔性编队航路规划算法。设计跟踪控制器,进行编队航行控制仿真。首先对复杂的海洋环境和航路规划空间进行分析建模,并根据编
学位
我国制造业在以集成电路为代表的复杂3C零部件的机器人高速高精装配领域面临着严峻挑战,存在着3C零部件结构复杂、易于损坏,装配流水线空间狭小、工况复杂的问题,机器人掌握敏捷、柔性和精益制造操作技能的需求日益迫切,设计特定于任务的控制器成为了一种低效且繁琐的解决方案,因此,亟需发展新的、灵活通用的控制方法。针对此问题,本文以JLRB20型机器人为研究对象,以装配CPU为任务,设计了面向服务器装配的机器
学位
负重行走时的额外载荷会改变行走步态,使人体代谢消耗增加,甚至产生关节和肌肉损伤。为拓展人体负重运动能力并降低肢体骨骼损伤,开发降低行走代谢消耗的悬浮背包系统已成为可穿戴机器人领域的一个重要研究方向。尽管悬浮背包系统已得到广泛研究并已涌现出大量研究成果,但仍然面临诸多挑战。如大负荷负重行走时肩部负载力高,被动式悬浮背包难以实现最优的代谢消耗目标等。针对这些挑战性问题,本文设计了一种可变参数的负载转移
学位
手在一系列基本的日常活动中至关重要,妨碍手功能的神经系统疾病或意外截肢会显著影响生活质量。可穿戴手势识别接口有望恢复和辅助手部功能,增强人与人之间的沟通,是人机交互、康复医疗、假肢控制、手语识别等领域的重要研究方向。设计分类能力强、学习快的模式识别算法是手势识别接口应用和产业化的关键;鲁棒性强、信噪比高的高质量信源是手势识别质量的保障,二者同时也是该领域面临的重要挑战。针对上述挑战,本文对于气压肌
学位
利用GmAPD(Geiger Mode Avalanche Photo Diode)阵列激光雷达探测器对远距离建筑物目标进行三维成像并识别在机器视觉以及武器制导等方面具有重要研究意义。但目前GmAPD阵列激光雷达探测器存在数据获取困难、数据噪声强以及目标三维特征描述困难等问题。本文围绕上述问题,研究了GmAPD阵列激光雷达探测器模型仿真算法以及远距离建筑物三维目标识别和追踪算法。论文主要研究如下:
学位
随着人工智能技术的发展,卷积神经网络相比于传统算法,在图像分类、目标检测、语音识别等领域性能上取得了大幅提升,然而庞大的参数量和计算量使得卷积神经网络在资源有限的嵌入式场景中的应用受限。本文提出了可配置的卷积神经网络专用硬件电路,作为面向嵌入式图像处理场景的图像协处理器(Image Process Coprocessing Unit,IPCU)芯片的重要部件,可在资源受限条件下实现卷积神经网络实时
学位
无人飞行器因低成本、高机动性的优势,在制空权的争夺战中扮演着重要角色。防空体系的快速发展和完善给无人飞行器的生存带来巨大挑战,因此具有高突防能力的隐形化无人飞行器成为近些年研究的热点。以降低无人飞行器的雷达散射截面(RCS)为目的的材料隐身和外形隐身是常用的隐身技术。但是无人飞行器的结构复杂,隐身技术也无法完全消除散射源,无人飞行器仍然存在生存隐患。航迹规划是提高无人飞行器突防能力的重要一环,通过
学位
时空域人-物交互行为检测是指在无剪辑视频中,定位时域发生交互行为的起止时间,检测空域相关人-物对的位置及类别,并生成时空管道。对以人为中心的场景理解具有重要意义。然而,受制于复杂的空间交互关系和冗余的时序背景信息,难以直接从视频中检测交互起止时间和人物关系。本文率先尝试将时空域任务解耦为空域检测任务和时序定位任务,前者聚焦于提升人-物交互行为对在复杂图像中的建模性能,后者聚焦于精确定位具有交互行为
学位
红外弱小目标检测在军事和国防领域具有举足轻重的地位,广泛应用于精准制导、预警系统以及武器装备中。由于探测器离目标空间位置远,成像环境复杂多变,导致目标呈现点状或斑状,缺乏纹理、颜色等特征,给红外弱小目标检测带来较大困难。现有算法大多为单帧检测,没有充分利用帧间的时序信息,场景鲁棒性和检测精度不高,而现有多帧检测算法速度有待提升。此外,检测结果中通常存在较多虚警,给实际应用中后续跟踪任务带来干扰。为
学位
近年来随着无人机广泛应用,基于无人机航拍图像的车辆检测算法在智慧城市、军事侦察等众多领域都有广阔的应用前景。现有深度学习方法大多基于可见光航拍图像,但囿于成像方法的局限性,无法在弱光条件下准确检测,而红外图像可与之形成信息互补,二者可在全天时提供充足的目标信息。本文分别从构建双谱段航拍数据集、单谱段车辆检测算法、双谱段融合车辆检测,引入旋转目标检测四个方面展开研究,解决现有双谱段数据集不足,无人机
学位