基于ZYNQ的卷积神经网络端侧推理加速器研究与实现

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:peng88888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络CNN(Convolutional Neural Network,CNN)算法是当前人工智能领域尤其是计算机视觉领域的一个重要研究方向,在目标检测、图像跟踪,图像分类等研究方向取得了巨大突破。但是随着网络性能的提高,算法的计算密度和内存需求也急剧上升,导致其难以在计算和存储资源以及能耗受限的嵌入式端侧设备上进行模型部署和应用,从而制约了计算机视觉的发展和推广。由于FPGA具有高性能、低功耗、可编程的特性以及灵活、高效的并行化设计架构,使得其成为卷积神经网络端侧推理加速的最佳平台。本文基于ZYNQ平台进行卷积神经网络端侧推理加速器研究。论文分别从CNN算法和硬件架构两个角度进行优化设计。在CNN算法优化中,首先进行算子融合和拆分重组来提高算法在硬件上的执行效率,然后采用动态定点低位宽数据精度对模型进行量化,从而在保证模型精度的同时减少对硬件资源的占用,提高网络计算速度。在硬件架构优化中,将含有大量并行计算的卷积和池化层置于FPGA侧进行计算,通过分析其计算并行特性,选择合适的循环展开方式和并行度,最大化提高卷积计算速度。之后通过流水线技术提高卷积计算吞吐量,以及乒乓缓存和多通道数据传输等策略来优化访存瓶颈。之后,以YOLOv4 tiny为目标算法,叙述CNN模型到ZYNQ上的完整映射流程。最后,本文以ZYNQ-7020为目标平台进行加速器硬件系统和软件系统的设计和实现,并分别从检测精度、资源占用、速度、功耗四个方面对加速器进行综合评估。结果显示,本文提出的卷积神经网络加速器设计方案能够在资源和功耗有限的情况下提供较高的计算性能,具有高度的可配置性和移植行,适用于嵌入式端侧平台CNN模型推理加速。
其他文献
随着日常生活和生产过程中智能平台的广泛应用,越来越多的智能平台搭载云台相机作为其获取有效视觉信息的重要手段。为了充分发挥云台相机的优良特性,研究云台相机的位姿控制策略具有重要意义。本文针对云台相机位姿控制,研究基于传统PID方法结合群智能算法以及深度强化学习的相机位姿控制算法。论文的主要工作如下:首先,简介强化学习和深度强化学习的基本概念,对比分析了基于值函数、基于策略梯度和演员-评论家三种强化学
随着互联网技术的发展,互联网上的信息量每天都在爆发性的增长。如今云计算凭借其高可靠性、高可扩展性以及计费灵活等特点,在高效处理海量信息方面越来越受到人们的关注。云计算本质上是一种分布式计算,用户可以根据自已情况,随时随地按需获得服务。随着用户规模的不断扩大,云平台需要处理的任务也逐渐增多,因此当前研究的重点在于任务调度算法的设计和改进。蚁群算法(Ant Colony Optimization,AC
卷积神经网络在大量的传统机器学习任务上的表现超越传统方法,在实际生产生活中正得到广泛的运用,例如:图像分类、目标识别和生成模型等。然而,当前的先进网络往往具有较大的计算量,这限制了其在大量低成本、低功耗的边缘场景中的使用。同时,将面向复杂数据的模型直接应用到较小的数据集上,会不同程度地增加网络模型的冗余,甚至会因过拟合影响模型的泛化性能。网络压缩领域中的网络剪枝方法能以结构化的方式移除模型中的冗余
当前的工业过程控制系统中,线性控制器仍占绝大部分。然而真实的工业系统都是非线性的,工况切换,设备老化等等实际工业问题都对传统控制器带来挑战。研究更加智能的,具有自学习能力的控制算法具有重要意义。随着机器学习算法的不断发展,以深度学习、机器学习为基础的强化学习算法使得非线性系统自适应控制出现了新的研究方向。强化学习是具有自我决策能力的控制算法,通过探索与试错拥有类似人类的学习能力,通过学习不断改善自
在工业过程控制中,控制器的自整定被认为是一个提高控制系统自动化程度的有效方法。控制器自整定的一般过程就是通过激励信号获取系统输出数据,其次利用这些简单的采样数据获取系统重要的特征参数,最后利用这些特征参数快速获得控制器参数。目前ABB、Siemens、Honeywell等公司都已经将PID自整定技术用在了自己的产品中,效果不错。然而调查研究表明,PID虽在工业现场使用极其普遍,但效果也不一定总是很
随着人工智能技术的日益成熟,基于深度学习模型的文本分类技术被广泛的应用于现实任务中,例如情感分类、恶意文本检测、新闻分类等。但深度学习模型很容易受到对抗样本的攻击,这影响了模型可靠性,从而给使用相关技术的企业和个人带来了安全隐患。因此,如何在保证模型具有较好泛化性的同时提高模型对于对抗样本的鲁棒性,成为近几年深度学习领域亟需解决的重要问题。本文聚焦于深度学习文本分类任务,对影响模型可靠性的对抗样本
肝移植手术是应对急性肝衰竭、肝硬化甚至肝癌最有效的治疗方法之一,而对于肝移植术后受者并发症的预测则是现代医学中很有意义的一项工作,能够准确预测术后并发症将对肝移植治疗起到很大的帮助。虽然现在已有很多机器学习算法能够很好地应对预测分类问题,但这些方法用于小样本,特征空间很大的医疗数据集时存在着预测准确率低,精确率和召回率不高等问题。对肝移植手术数据进行科学的分析与处理,以获取有效信息,在协助医生进一
由于人力成本的逐年增加,在高强度或高危险的重复性任务中,使用智能机械臂代替人工符合时代的需求。随着相关计算机视觉算法研究的不断深入,机器人对抓取目标的感知能力得到了技术和理论支撑。本文针对机器人抓取中的平面抓取检测问题进行研究,利用图像处理和深度学习的技术,结合目标检测算法设计了一种抓取检测的基本网络结构,并在此基础上提出了一种准确实时的平面抓取检测方法,实现了较高的抓取检测准确率。首先,分析了平
随着分布式控制和多智能体系统的发展,分布式估计/观测器技术引起了科学界越来越多的关注。分布式观测器由于具有灵活性和鲁棒性,在复杂环境监测、目标跟踪等场景中得到广泛应用。本论文主要研究分布式观测器的设计问题,并将事件触发控制,量化控制运用到分布式观测器中,最后通过数值仿真验证设计方法的有效性。全文主要工作包括以下方面:1.对于无向通信拓扑结构,为了实现(子)观测器之间的离散时间通信,提出了一种动态事
在实际的工业生产过程当中,时常会遇到两种或两种以上的物体混合共同流动的工况,这一现象一般被学术界还有工业界称为多相流。而目前能够解决两相流中的过程检测的重要手段就是被广泛应用的过程层析成像(Process Tomography,PT)技术。电容层析成像(Electrical Capacitance Tomography,ECT)这种技术就是过程层析成像技术的一种,它具有高精度和非侵入性,成本低,结