【摘 要】
:
近些年来,卷积神经网络被广泛应用于图像分类、语音识别、自然语言处理等领域。随着应用场景的增加,卷积神经网络的参数量和计算量也越来越大,这对所使用的硬件平台的访存效率和计算能力提出了更高的要求。计算机受限于其体系架构,运行卷积神经网络时效率低下。因此采用GPU、ASIC或FPGA来实现加速器,其中FPGA实现的加速器灵活性更高,成本更低。同时在卷积神经网络中,卷积层通常是最耗时的,所以对卷积神经网络
论文部分内容阅读
近些年来,卷积神经网络被广泛应用于图像分类、语音识别、自然语言处理等领域。随着应用场景的增加,卷积神经网络的参数量和计算量也越来越大,这对所使用的硬件平台的访存效率和计算能力提出了更高的要求。计算机受限于其体系架构,运行卷积神经网络时效率低下。因此采用GPU、ASIC或FPGA来实现加速器,其中FPGA实现的加速器灵活性更高,成本更低。同时在卷积神经网络中,卷积层通常是最耗时的,所以对卷积神经网络加速器中的卷积层进行研究有重要意义。本文在神经网络加速器NVDLA的基础上,以卷积层数据通路的访存结构和乘加阵列的结构为研究对象,首先分析了NVDLA加速器中卷积层中的访存结构,找出影响访存效率的关键因素:握手协议,针对握手协议组合逻辑路径过长的问题,使用流水线技术将握手协议上较长的组合逻辑路径切割成两段较短的组合逻辑路径,降低了组合逻辑路径上的延时;在加入流水线的基础上,通过加入缓存用的寄存器和旁路消除流水线带来的延迟,降低了卷积层的访存延时。针对NVDLA卷积层中乘加阵列的结构与DSP结构差异较大,使用FPGA实现电路时,对DSP的利用率较低的问题,通过优化NVDLA卷积层的乘加阵列,使其结构与DSP的结构相似,根据NVDLA的数据类型和DSP的结构,对DSP进行复用,使一个DSP能同时进行两组乘法运算;设计并验证了APB协议转CSB协议模块,通过AXI4、APB接口将NVDLA和So C集成,同时扩大So C的内存至64MB,完成了链接脚本修改,使SDK能正确地分配程序使用的内存空间,以便So C能够运行完整的网络和调用NVDLA加速器。最后通过修改SDK中的底层驱动,使用户可以在程序里通过API直接调用NVDLA加速器,并在此基础上使用JTAG和UART搭建了整体的仿真环境,对完整的网络进行仿真验证。本文使用Vivado软件对优化前和优化后的加速器进行综合,在ZCU102开发板上通过Le Net-5的驱动调用NVDLA加速器完成对手写数字的识别。在时钟频率为100MHz的情况下,Vivado综合结果显示,优化后的加速器相比于优化前的加速器,卷积层中的关键路径的延迟时间降低了6.1%,乘加阵列中DSP的占用量下降了25%。板级测试结果表明,优化后的加速器推理单张手写数字图片的耗时降低了7.9%,有效降低了NVDLA加速器中卷积层的访存延时和乘加阵列中DSP的占用量,为卷积神经网络在图像识别领域的应用提供了技术支撑。
其他文献
金属薄膜具有与块体材料不同的介电响应、表面等离极化激元(SPP)和较强的光吸收能力,使得它们在各种光电器件的设计和制造中成为首选材料。其中,厚度低至原子厚的贵金属薄膜具有优越的光吸收能力和导电特性,尤其是在它们和介质交界面处激发的SPP可以更好地捕获光子并产生巨大的载流子,使其在提高太阳能电池的光电转换效率、设计近红外波段的光电探测器和基于SPP的传感器等方面表现出优异的性质。但贵金属薄膜的光电性
为满足DNA测序的需要,纳米孔DNA生物传感器作为一种新的传感器类型在纳米技术领域被提出并受到广泛地关注。纳米孔微流控系统与集成电路相结合为许多领域带来了新的发展空间,从医疗保健到环境和制药工业的高通量筛选,尤其在日益火热的基因测量领域。新一代纳米孔DNA测序技术以电信号检测为主,在成本、性能和并行化方面具有巨大的优势。纳米孔DNA测序技术研究的主要内容就是纳米孔的制备和高精度检测方式。由于纳米孔
近年来,伴随着临近空间高超声速飞行器的快速发展,对高速高机动目标的探测跟踪也逐渐成为学术和工程研究的热点问题。常规机动目标跟踪方法在目标弱机动、模型参数已知的场景下能够取得较好的跟踪效果。但是,临近空间飞行器具有远距离、超高速、强机动等特点,导致目标运动存在极大的不确定性,若采用传统机动目标跟踪方法,会因模型失配导致跟踪精度下降,甚至存在滤波失效的问题。为此,面向临近空间飞行器高精度、强稳健、实时
图像处理技术是当前信息化时代的热点话题,多模态图像的涌现带来图像信息丰富度的扩增,如何有效利用异源图像获得更加全面而精确的地物目标信息,成为一项亟需解决的问题。异源图像配准融合技术可对包含同一场景信息的多模图像进行空间对齐与各层级信息整合,进而获得特征增强、内容丰富的融合图像。各传感器的工作模式各有千秋,其中可见光成像系统发展最为成熟,所获得的图像具有丰富的色彩信息和清晰的纹理背景,但是该成像系统
随着CMOS工艺的进步和数字信号处理能力的提升,以及近年来人工智能、5G、物联网、汽车电子等多个领域的高速发展,使得模拟信号与数字信号之间的转换模块显得尤为重要。模数转换器作为其中不可或缺的一部分,将前端采集的模拟信号转换为数字信号,然后传输给后级数字信号处理电路。其中,逐次逼近型模数转换器(SAR ADC)由于结构简单,功耗低、能效高、易于集成等特点,广泛应用于医疗电子、汽车电子、消费电子等领域
随着芯片产业的不断发展,集成电路规模和复杂度日益增长,给数字电路设计带来巨大挑战的同时,也使得电路的仿真验证比之前更为困难。传统的软件仿真花费时间太长,硬件仿真虽然速度快,但是可监测性差。软硬件协同仿真兼顾软件仿真可视性强和硬件仿真速度快的优点,缩短了验证时间,提高了验证人员的工作效率。为了缩短验证时间,提高验证人员的工作效率,满足日益增长的电路规模的验证需求,本文开展了基于软硬件协同仿真架构的H
近几年来新型太阳电池的发展十分迅速,而有机太阳电池因其质轻、可柔性集成、低成本、制备工艺简单而被广泛研究。制约有机太阳电池商业化的一大因素是其光电转换效率要比传统硅太阳电池、砷化镓太阳电池低,因此如何提升有机太阳电池的光电性能是重要的研究课题。本文以提升非富勒烯体系PM6:Y6二元共混体有机太阳电池光电性能为主要目的,主要开展了两个工作,首先通过在有机太阳电池玻璃衬底表面制备光学减反微纳结构以减少
增强型GaN基HEMT在高速射频开关、数字快速电路、射频集成电路以及微波单片集成电路等领域都具有很高的应用价值,目前p-GaN帽层技术是实现增强型GaN基HEMT的主流商用技术。然而,Mg掺杂难激活以及刻蚀损伤等因素限制了HEMT性能的进一步提升,因此高性能、低成本的增强型帽层技术具有重要的研究意义。本文通过Silvaco-ATLAS模拟了多种p型氧化物帽层HEMT的性能,最终选择器件性能更优的p
随着由知识技术主导的社会的发展,知识产权正逐渐成为一个国家提高自身核心竞争力的重要战略资源之一。进入21世纪后,知识产权遭到偷窃或篡改的现象愈演愈烈。2010年,中国软件盗版使得整个软件行业甚至遭受了上千亿的损失。2021年,中国芯片设计行业的总销售收入预计超过4500亿美元,在这样的大环境下,保护知识产权更是半导体行业发展的重中之重。FPGA(Field Programmable Gate Ar
CAN(Controller Area Network)总线是车载网络中应用最广泛的汽车总线。随着汽车智能化的不断提高,车载电子系统更加复杂,车载网络的信息交互变得更加频繁,CAN控制器技术成为汽车电子领域最重要的技术之一。目前国产CAN控制器市场占比很小,且多为独立控制器,集成CAN控制器的市场更大但是主要由国外半导体企业控制。集成CAN控制器与系统核心的交互通过APB(Advanced Per