面向FPGA的RepVGG存算资源优化方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:uf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现场可编程门阵列(Field-Programmable Gate Array,FPGA)是当前在嵌入式边缘端进行卷积神经网络(Convolutional Neural Network,CNN)模型推理加速的代表性高性能计算处理器,可为CNN中大量重复的卷积计算进行并行加速。为了充分利用FPGA并行计算能力,需要针对推理过程高效且处理精度高的网络模型进行定制化计算结构设计,以满足在边缘端高速、高精度处理的需求。RepVGG(Re-parameterization Visual Geometry Group)是一种针对模型精度和推理速度进行优化的CNN架构,在训练时使用多分支结构提高精度,在推理时转变为卷积算子单一且规则的单路结构,能在FPGA平台上获得更高的计算效率。然而,由于RepVGG网络本身参数量和计算量较大,在FPGA上进行高效推理存在以下两个问题:一是存储资源问题,有限的片上存储导致大量数据在片外进行频繁的数据访存,增加了推理时间;二是计算资源问题,受限于处理器片上集成计算核心数量,使得RepVGG难以在其上充分发挥并行计算的能力。针对上述问题,本文基于多层融合、量化及卷积计算变换等方法进行片外访存数据以及卷积计算优化。具体研究内容如下:(1)针对RepVGG推理过程中,大量片外数据访存导致推理时间增加的问题,进行多层融合结构设计和量化操作以减少片外与片上存储器之间数据的交互。本文通过分块卷积的方式改变原始卷积结构,改善多层融合中的边缘数据依赖的问题,以便在加速器中进行多层融合设计,对网络结构数据流进行优化以减少中间特征图的片外传输;此外,通过量化的方式来减少网络权重数据以及中间特征图数据所需的存储空间,从而减少片外访存数据量。(2)针对推理过程中因FPGA计算资源有限导致的RepVGG网络运行效率低的问题,在卷积计算层面对浮点数乘法运算进行优化,使用定点数移位运算来代替浮点乘法,从而减少卷积计算中的资源使用量,降低计算复杂度。本文将网络模型的权重转换为移位值和符号值,可在FPGA上使用定点数移位来替代原始网络中的浮点数乘法运算。(3)基于FPGA硬件平台,构建RepVGG硬件加速器。本文在分块卷积和移位变换的基础上,进行RepVGG计算系统控制调度程序的设计以及加速器卷积计算单元IP核的设计。实现RepVGG模型在边缘端硬件平台的高效部署,并对片外访存数据量、资源使用情况、加速器性能进行评估,验证本文方法对计算资源以及片外访存数据优化的有效性。
其他文献
随着通信技术的持续发展,无线信道的衰落特性对信息的高效准确传输造成了越来越严重的影响。与多径信道相关的频域选择性衰落,以及多普勒频偏所导致的信道时域变化是恶化系统性能的主要原因。为了抵抗信道衰落的持续影响,一种常用的方式是通信分集技术。当存在多个信道时,它们同时处于深度衰落的可能性将大大降低,因此分集技术通过占用额外的通信开销,显著降低信道衰落的影响。但这种方式会导致系统复用增益的降低,造成频谱利
学位
随硬件水平发展,机器学习突破瓶颈,图像分类问题也成为深度学习活跃领域之一,而传统的深度学习一味增加网络深度与结构复杂程度,使用巨量的训练数据集以及庞大的硬件资源进行学习,这样的资源需求对于日常场景显然是不可行的。学习样本的数量与质量对深度学习效果的影响举足轻重,如何在样本不足的情况下快速训练网络以及如何使网络获得较好的泛化能力乃至网络的自我学习的能力是小样本学习的关键。在小样本图像分类问题中,图像
学位
随着现代科技的发展,无人机技术的发展范围也迅速扩大,通过无人机群执行难以由人力完成的任务,可以有效地减少不必要的人力消耗,降低复杂任务带来的伤亡和潜在的危险。无人机执行任务的一个重要前提是航迹规划,其本质是在满足无人机本身物理限制和任务约束的条件下,在复杂环境的可行路径中寻找最优解的过程,但随着任务复杂程度的增加,离线航迹规划的复杂度也随之增加;无人机飞行时潜在的突发威胁因素变得复杂,在线局部重规
学位
智能反射面(Intelligent Reflecting Surface,IRS)是由大量低成本的无源反射单元组成的二维电磁超表面,它可以“改变无线通信环境”,从而提高无线通信网络的性能,被认为是第六代移动通信(The 6th Generation,6G)的关键候选技术之一。物理层安全(Physical Layer Security,PLS)技术是一种利用无线信道的时变性、随机性、互易性等特点,独
学位
红外热成像技术具有全天候工作以及隐蔽性好等优势。红外弱小目标检测与跟踪技术应用于精确制导、红外监控以及早期预警等领域,具有重要意义和研究价值。但是红外弱小目标具有尺寸小、对比度低、缺乏纹理信息等特性,并且复杂红外背景中存在与目标尺寸以及亮度等相似的干扰,这些因素使得目标检测与跟踪任务困难重重。本文通过分析红外弱小目标特性,对红外弱小目标检测与跟踪技术展开了深入研究。首先,本文对红外辐射原理以及红外
学位
近年来,随着人们工作生活品质的要求不断提高,很多基于位置的服务逐步受到关注,而这些服务的核心就是准确获得使用者的位置。室内场所是很多人工作生活的主要活动区域,而卫星导航技术在室内的精度不高甚至会失效。在面对未知且复杂多变的室内环境时,如何进行准确且高效的定位并且快速熟悉周围环境是目前相关行业的研究热点,利用室内可以获取的各种信息进行定位和环境探测具有重要的现实意义和广阔的发展前景。本文以计算机图像
学位
脑机接口(Brain-Computer Interface,BCI)是一种通过对采集到的脑电图(Electroencephalogram,EEG)信号进行处理,将EEG信号解码成相应的脑部神经活动的科学技术。BCI系统不依赖于人体的神经-肌肉输出通路,提供了一种新型的与外界交流的方式。BCI系统按照所使用信号种类的不同可以划分为多种类型,其中基于运动想象的脑机接口(Motor Imagery Br
学位
以行政区划为边界,制作省、市、县等区域的固定周期全覆盖图,可用于变化监测、审计、执法督察、应急救灾等多种场景,遍及国土、水利、环保、应急、政务等多个行业领域。黑龙江省作为中国最大的林业和农业省份之一,生成该省固定周期内的全覆盖图,对黑龙江省的农业、林业进行监测意义重大。然而,生成固定周期内给定行政区域的全覆盖图,有两个关键问题亟需解决:一是厚云污染的问题;二是传感器无法覆盖的问题。针对上述问题,本
学位
由于中等轨道(Medium Earth Orbit,MEO)SAR具有覆盖范围广、平台运行稳定度高、工作时间长等优点,能够长期、动态、宏观地对海洋进行观测,因此本文主要研究MEO SAR对舰船目标成像方法。MEO SAR卫星轨道高度较高,轨道弯曲特性明显,使得双曲线性斜距模型误差较大,LEO SAR的成像算法不再适用于MEO SAR。在海面上航行的舰船运动存在多维度运动,既包括沿着航向的平行运动,
学位
随着物联网和深度学习的兴起,以卷积神经网络为主流的深度学习技术在边缘计算场景得到了广泛应用,然而性能增速逐渐放缓的算力平台难以适应卷积神经网络日益增长的算力需求。因此,如何利用边缘设备的有限算力进行卷积神经网络的高效推理成为高性能计算领域的前沿问题。针对上述问题,本文从硬件加速-模型轻量化协同优化的角度出发,在设计硬件加速时兼顾模型结构优化,在模型轻量化时兼顾硬件加速的计算特点。围绕上述研究动机,
学位