基于稀疏卷积得GoogLeNet网络硬件加速设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:p348892993
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的快速发展,卷积神经网络成为了热门的研究领域。然而由于卷积神经网络的高复杂度计算,传统的CPU无法满足实时性要求。GPU虽然被广泛用于网络的训练中,但是由于其过高的功耗无法满足嵌入式应用需求。因此,FPGA凭借其低功耗、可重构、低延时的特点逐步成为研究的热点。目前传统在FPGA上部署卷积神经网络的方法主要是构建大型的乘累加阵列,该方法的最大性能受限于FPGA上乘法器单元的数量,并且无法利用卷积神经网络中参数量冗余的特点来获得更高的性能,针对这些问题,本文针对GoogLeNet网络,创新性的使用以下方法进行解决:
  (1)提出多维度算法压缩框架包括剪枝、聚类和量化三种压缩算法来对GoogLeNet网络进行轻量化以解决其存在的计算量大、参数量多的问题。根据剪枝率以及GoogLeNet网络不同卷积层参数的分布,动态调整剪枝阈值,将不重要的参数去除,使用K-Means聚类算法对GoogLeNet网络进行聚类,并提出根据网络卷积核大小以及非零参数量的不同设置不同的聚类类别来达到最优的聚类效果,最后结合Ristretto算法对GoogLeNet网络进行8bit量化探索以降低模型的存储空间。实验结果表明,同时使用三种算法压缩后的GoogLeNet网络模型的存储空间降为原模型的十分之一,计算量降为原模型的四分之一。
  (2)基于OpenCL异构计算框架,结合压缩后的GoogLeNet网络模型以及课题组所提出的ABM-SpConv稀疏卷积算法,设计了面向稀疏GoogLeNet网络的硬件架构。通过将卷积运算中加法、乘法解耦为两个阶段,先在加法单元中将权值对应的特征图数据相加,然后再将累加结果送到乘法单元中和对应的权值相乘,从而减少了乘法器单元的用量。并提出将GoogLeNet网络中的归一化层和卷积层相融合的方法来进一步降低部署的难度以及对压缩后的网络模型参数进行编码以解决传统稀疏卷积算法中访存效率低的问题。最后本文设计了一套完整的设计空间探索流程,通过对资源、频率、性能进行理论建模分析,得到本文架构在目标板卡上的最优性能,为跨设备移植提供便利。
  本文将GoogLeNet网络部署在Arria10GXFPGA开发板上并进行了实验,取得了非常好的结果。在最优电路参数的配置下,识别一张图片的时间为3.4毫秒,最大吞吐量为1456GOPS,能效比是CPU的34倍,GPU的4倍,和之前最优的架构相比,速度提升了1倍,吞吐量提升了3倍。
其他文献
万物互联时代的来临将为无线通信业务带来几何级增长的数据流量,使得承载无线通信业务的频谱资源变得日益紧缺。基于动态频谱接入机制的认知无线电(Cognitive Radio,CR)技术成为解决频谱稀缺问题,推动未来认知网络发展的前景技术之一。要使CR技术得以实现,可靠检测是 否存在可用频谱的频谱感知技术是首要环节。多用户参与的协作频谱感知利用空间分集提高频谱感知性能,然而合作的引入和CR网络的开放性使
频控阵(Frequency Diverse Array,FDA)雷达是在常规相控阵(Phased Array,PA)的基础上,对各阵元载频依次施加不同的频率偏移而形成的新体制阵列雷达。与常规相控阵雷达的发射波束仅具有方位角依赖性不同,频控阵雷达的频偏使其发射波束具有距离和方位角的联合依赖性。因此,频控阵不但具有相控阵的功能特性,还在距离相关的波束形成、目标探测、干扰抑制、电子对抗和安全通信等领域具
无线通信已逐步迈进5G时代。5G使万物互联成为可能的同时也给信息安全带来了巨大的挑战。近年来,物理层安全方法在信息安全的研究中开始扮演着越来越重要的角色。与传统基于密钥交换的加密机制不同,物理层安全利用无线信道的固有属性来保证信息安全传输。定向调制(Directional Modulation,DM)技术以其可以定向地发送保密信息确保信息安全而备受关注。但以传统相控阵(Phased-array,P
契伦科夫荧光成像(Cerenkov luminescence imaging, CLI)技术开创性的利用了核医学领域中放射性核素在衰变过程中产生的可被光学探测器收集的近红外光,由于大量放射性核素可被用于临床,因此CLI为解决光学分子成像技术临床转换面临的分子探针局限性这一问题提供了新思路。通过结合生物组织中的光传输模型和光源重建算法,契伦科夫荧光三维成像(Cerenkov luminescence
荧光分子断层成像(Fluorescence Molecular Tomography, FMT)可对生物体内特异性荧光分子探针的时空分布进行可视化,因其成像灵敏度高、无电离辐射风险及成本低廉等优点,在药物研发筛选、疾病早期诊疗、手术导航等可视化检测领域有着巨大的潜力。FMT通过使用高灵敏度相机采集体表面近红外光学信号,并结合光在生物组织中传播的物理模型,进而由重建算法得到荧光光源的三维分布。近年来
5.12汶川地震诱发了大量崩塌滑坡体,为震后泥石流的爆发提供了丰富的松散固体物质,震后大多拦挡坝被淤满,防治效果不甚理想,其根本原因为对特殊的震后泥石流物源起动机理认识不深刻,工程设计所需的泥石流一次冲出量及动储量仍采用震前的常规计算方法,导致计算结果产生较大偏差。迄今为止,汶川地震已过去十年有余,震后泥石流以及雨季水流作用,使得沟道物源已逐渐成为了震后泥石流爆发的主要物源之一。  “宽缓”型沟道
学位
断层作为煤矿一种常见的地质构造体,严重影响着矿井的安全生产,如何准确地对断层产状作出探测,已成为煤矿领域研究的一个重要课题。目前,煤矿所采用的普通钻进方法,由于受技术条件的限制,主要有探测距离短、探测误差大、钻孔事故率高、单孔钻进角度单一等缺点。定向钻进技术作为一种新的钻探手段,对以上问题进行了充分的弥补,且已成功地在多个工程领域得到应用。因此,在煤矿井下断层的探测中引进定向钻进技术并总结出一套适
湍流燃烧中灭火添加剂效果的数值模拟研究,对理解灭火添加剂的灭火机理以及高效灭火剂的研制都有着非常重要的意义。对于湍流燃烧的模拟其本身就是一项非常复杂的工作,目前国际上也有很多燃烧模型用以解决这一问题。由20世纪90年代Bilger和Klimenko共同推导出的条件矩封闭模型是其中模拟效果较好的模型之一,目前已成为与层流小火焰以及PDF输运方程模型并重的湍流燃烧模型之一。其基本思想是以混合分数为统计
城市快速路是城市道路交通的主动脉,然而,随着城市交通需求的增加,快速路的拥堵问题也日益严重。入口匝道控制是缓解快速路拥堵的重要手段,随着车联网等技术的发展,传统的快速路入口匝道控制方法已经不能满足人们的控制需要,因此,结合车联网时代交通控制的特征对快速路入口匝道协调控制进行探究具有重要意义。  本文从系统的角度出发,对快速路入口匝道控制策略进行探究。首先进行入口匝道调节控制的必要性、入口匝道协调控
近年来,在我国的铁路运输领域中,随着高铁路网对既有线客流的分流作用逐渐增加,使得既有线路上的货物运输业务受到客运业务的影响逐渐降低,因而使得货物列车运输服务质量的提高有了先决条件。当前,由于我国铁路货物运输领域主要采用组织型的运输组织方式,导致货物运输的计划性和规律性较差,进而使得运输时效性低、运输过程不透明;导致铁路货运在运输市场的形象受损,降低了相对其他运输方式的竞争力水平。因此,针对货流特征