【摘 要】
:
近些年,卷积神经网络在计算机视觉领域的准确度得到了显著提高,然而其对存储资源、计算能力的大量需求,使其无法部署在小型设备中,需要减少卷积神经网络的参数量,降低计算复杂度。因此对卷积神经网络量化和硬件加速的研究有着重要的实用意义。本文根据卷积神经网络参数存在大量冗余信息的情况,对网络权重进行量化处理,采用增量量化算法,分组量化网络权重,将权重绝对值较大的一组量化,权重绝对值较小的一组重训练用于弥补量
论文部分内容阅读
近些年,卷积神经网络在计算机视觉领域的准确度得到了显著提高,然而其对存储资源、计算能力的大量需求,使其无法部署在小型设备中,需要减少卷积神经网络的参数量,降低计算复杂度。因此对卷积神经网络量化和硬件加速的研究有着重要的实用意义。本文根据卷积神经网络参数存在大量冗余信息的情况,对网络权重进行量化处理,采用增量量化算法,分组量化网络权重,将权重绝对值较大的一组量化,权重绝对值较小的一组重训练用于弥补量化后产生的精度损失,同时针对硬件设计对量化后权重进行编码。在硬件加速方面,根据量化后权重的特性,设计基于移位方式的卷积计算单元,减少了乘法器的使用;计算模块采用阵列结构,并且支持不同的数据复用模式,减少访存次数,增加计算并行度和数据复用率,降低了功耗和带宽需求,提高了吞吐率。在ILSVRC2012数据集下,VGG-16的Top-1正确率仅下降0.44%。本文基于Virtex-7 FPGA开发板设计了增量量化后的卷积神经网络加速器,并以VGG-16作为测试网络验证了加速器整体性能:在150MHz的工作频率下,加速器的吞吐率为273.6GOPS,功耗为6.128W。本文基于增量量化设计的CNN硬件加速器降低了对硬件存储资源和计算能力的需求,且可配置、功耗低,可为深度卷积神经网络在小型设备上的部署提供设计参考。
其他文献
物联网节点为了降低功耗,在芯片中引入动态电压频率调节(Dynamic Voltage Frequency Scaling,DVFS)技术,在满足芯片不同状态下性能需求的同时降低功耗。在物联网芯片中实现DVFS技术面临很多挑战,传统的振荡器结构在DVFS应用中有着频率切换时间长、启动速度慢等缺点。为了提高启动与频率切换速度、减少工艺、电压、温度对频率的影响,本文设计了一种基于数字分频选相的低功耗数控
相比于通用处理架构与专用处理架构,粗粒度可重构架构(Coarse-Grained Reconfigurable Architecture,CGRA)因兼具高能效和高灵活性而有着独特的优势。然而CGRA因数据流驱动的特性无法高效甚至有效处理应用中存在的控制流结构。基于触发指令的执行方案(Triggered Instruction Architecture,TIA)作为一种比较全面的控制流处理方案,虽
基于可见光的室内定位(Visible Light Positioning,VLP)由于精确度高、成本低的优点,越来越受研究关注。VLP通常使用光电二极管(Photodiode,PD)或图像传感器作为接收器,后者抵抗环境光干扰能力更强,在手机上广泛配置。图像传感器通常需要至少同时拍摄到三个光源,才能使用传统三角定位方法,但在实际场景中通常难以满足,因此越来越多的研究者关注单个LED灯的定位。单个LE
作为三维(3-Dimensions,3D)成像应用的主流技术之一,基于单光子雪崩光电二极管探测器(Single Photon Avalanche Detector,SPAD)和光子飞行时间(Time-of-Flight,TOF)测量的TOF测距成像技术,因其作用距离远、抗背景光干扰能力强、精度高等优点,在诸如高级驾驶辅助系统(Advanced Driving Assistance System,A
5G时代的到来,催生了增强型移动带宽、高可靠低时延通信、海量机器通信等多种业务场景,然而多样性的业务对于承载网带宽、时延、可靠性等方面的要求差异巨大。一方面,IEEE802.3协议中固定速率的以太网接口,无法为多样性的业务提供更加灵活的带宽颗粒度;另一方面,网络流量快速增加,对于以太网速率的需求迅猛提升,但是光模块速率越高性价比越低。为了满足高速传送、带宽配置灵活等需求,光互联网论坛(Optica
海外军事干预是美国对外战略的重要特征,国际政治学界近年提出的"退出战略"理论,为考察美国如何结束海外军事干预提供了重要路径。美国结束阿富汗战争的"退出战略"主要源于美国总统的"阿富汗战争观",奥巴马、特朗普和拜登均认为,阿富汗在美国国家战略中的地位日趋降低,阿富汗战争的前景日益暗淡。以此认知为基础,这三位总统在任职期间均致力于从阿富汗撤军,结束阿富汗战争,并为此通过一系列的战略表述,以国家利益为由
随着“新零售”概念的出现,越来越多的新兴技术与零售行业融合。自动售货机作为传统的无人零售方式,具有点位多,应用场景广泛以及零售方式普及的特点,在新零售背景下与物联网技术融合,具有广阔的市场应用前景。目前市面上绝大多数自动售货机采用MDB/ICP(Multi-Drop Bus/Internal Communication Protocol)协议作为内部通信标准,售货机内部结构定型。因此在新零售背景下
功率电子领域正朝着高集成度、高能效比、高可靠性的方向发展,而当今在功率电子领域中应用最广泛的硅基(Silicon,Si)功率器件已不能完全满足未来功率电子系统更高功率密度的需求,为此人们把目光转向了有着卓越性能的增强型氮化镓(Gallium nitride,GaN)功率晶体管,但针对增强型GaN功率晶体管驱动技术的研究却没有跟上器件发展的速度,极大地限制了增强型GaN功率晶体管的应用,因此针对增强
龙芯2K1000B是龙芯公司研发的面向网络安全领域及移动智能终端领域的双核处理器芯片,在这样的应用场景与定位下,系统的启动速度十分重要,快速的启动对提高用户体验有着很大的积极意义。论文通过对龙芯2K1000B的软硬件系统进行分析,提出了对该系统启动速度的具体优化方法并实验验证了优化的有效性。对启动软件的分析主要包含三个方面。首先分析了系统的具体启动流程,包括PMON初始化、Linux内核初始化和系
随着电力电子技术的快速发展,无线充电技术具有了越来越广阔的发展空间和应用前景。其中无线充电技术的可靠性和效率主要由发射芯片决定,而驱动电路又在发射芯片中起了很大的作用。且集成化芯片设计将是未来无线充电发展的主要趋势,故将驱动电路与保护电路和功率管集成在一起的驱动芯片设计将显得越来越重要。集成化的驱动芯片体积小、可靠性高、效率高。本文正是基于这种需求设计一款集成了双半桥和四功率开关的驱动芯片。本次设