【摘 要】
:
为了应对层出不穷的交通事故,保障人民的生命财产安全,自动驾驶技术的推进越来越受到人们的关注。针对自动驾驶场景中的路标识别问题,人工智能技术以其高宽容性与高准确度的优势,成为解决该问题的关键技术之一被广泛使用。作为人工智能的一个子领域,卷积神经网络(Convolutional neural network,CNN)是一种通过使用大量网络参数对从传感器采集到的图片进行分类的深度神经网络模型。由于其高精
论文部分内容阅读
为了应对层出不穷的交通事故,保障人民的生命财产安全,自动驾驶技术的推进越来越受到人们的关注。针对自动驾驶场景中的路标识别问题,人工智能技术以其高宽容性与高准确度的优势,成为解决该问题的关键技术之一被广泛使用。作为人工智能的一个子领域,卷积神经网络(Convolutional neural network,CNN)是一种通过使用大量网络参数对从传感器采集到的图片进行分类的深度神经网络模型。由于其高精度和高泛化能力,在图像识别和目标检测领域得到广泛关注,已经成为该领域的研究热点。本课题来自于企业合作项目,针对轻量级计算的物联网边缘或端设备,设计了一种基于MobileNet神经网络模型的协处理加速器,用于加速汽车自动驾驶场景下的路标识别能力。通过量化技术将网络模型压缩,使模型大小适应存储受限需求,并通过设计合理的数据传输与缓存措施,大幅提升加速器的吞吐率,再配合数字电路的高并行性计算特点,使最终加速性能达到实时性需求。本工作首先针对MobileNet网络结构进行了并行化分析,提出一种基于深度可分离卷积的并行化结构设计方法。采用该方法在计算量及参数量上相对于传统卷积方法具有更为突出的轻量化优势。设计中针对量化至INT8类型的模型,在理论上推导出硬件实现的计算方法,相比于原始未量化模型98.39%的Top1准确率,量化后的准确率仍可达到97.79%。其次,本工作以自顶向下的设计模式,将MobileNet加速器以协处理器的形式,配合主控核心Cortex-A9进行协同设计,通过AXI总线协议对加速器进行寄存器配置,并使用DMA配合AXI-Stream协议进行大量网络参数传输,以此达到片内互联需求。本文的重点是软硬件设计。通过上述的计算理论与硬件实现规划,本文使用Verilog硬件描述语言,配合Xilinx提供的专用IP等,完成了硬件加速协处理器的设计。针对数据传输中存在的瓶颈,本文通过使用pingpong buffer提前缓存网络参数,并妥善设计加速器中的数据流,最大化复用片上存储,使最终峰值达到50GOPs。在卷积计算中,本文采用加法树配合流水线设计,并针对不同卷积计算细节,设计了对应的状态跳转控制循环的方式,提升整体运算效率。同时,为了进一步降低布局布线面积,本文在硬件设计中还采用了FPGA专用器件代替LUT等方式,节省了大约60%片上LUT资源的使用。另一方面,为了增强所设计的加速器的可移植性,便于用户使用,本文还设计了配合硬件部分的C++软件部分代码,通过软件部分便捷配置加速器寄存器,控制网络参数传输等。最后,本文将设计出的硬件部分部署至FPGA器件上,首先对使用的MobileNet模型在德国交通标志数据集上进行预测准确度分析,结果表明,在测试集上使用所设计的加速器进行预测,其准确度为97.79%,与量化后模型的准确度一致,说明在预测准确率上,本次设计可以满足自动驾驶中的准确识别要求。其次,使用所设计的加速器进行图片预测,与PC平台上使用GPU等进行预测的计算结果是一致的,表明设计的功能是正确的。第三,通过Vivado布局布线后分析,加速器整体资源占用满足FPGA器件中的资源数量要求,这表明本次设计可以满足计算端设备的资源限制要求。最后,通过各个平台间的加速性能与功耗对比,本次设计的硬件加速器加速性能是CPU平台的65.48倍,与GPU平台的推理时间相近,并且设计出的加速器功耗仅为GPU平台的1/21。相比于国内外的其他设计,本设计在加速性能、计算性能以及功耗方面均达到了优秀效果,可见本次设计达到了神经网络加速器的先进水平。
其他文献
铁电电学掺杂技术通过利用铁电材料极化电荷的非易失和可编程性,基于随之产生的非易失性可重构电场获得了半导体掺杂的能力。该项掺杂技术热预算低、无杂质离子、掺杂浓度和掺杂类型及空间分布精度高度可控,同时还具备非易失和可编程性,是后摩尔时代的新兴掺杂技术。目前,铁电电学掺杂技术主要基于铪基铁电材料展开,旨在满足CMOS工艺兼容性需求。其中铁电材料的主要制备工艺为溅射或原子层沉积,其状态通常呈现为多晶状态,
铁电掺杂技术(Fe-ED)结合铁电材料和静电偏置掺杂技术,获得了低热预算、无杂质中心、纳米级空间分布精度、突破固溶度的掺杂浓度、以及非易失性和可重构特性等优势,可满足后摩尔时代集成电路纳米晶体管的工艺兼容和功能密度的双重需求。本文针对后摩尔时代集成电路发展需求,基于三维鳍式场效应晶体管(Fin FET)结构深入研究铁电掺杂器件的性能优化原则,主要内容分为如下两个方面:一、Fe-ED Fin FET
随着时代的发展,在电力电子领域中人们对小型化电路的需求促使高功率器件的高速发展,在国内外长达六十多年的研究里发现SiC材料具有宽禁带与高热导率等优点,同时光导开关具有的光触发方式响应速度极快且输出稳定,所以以SiC为衬底的光导开关十分适合高功率脉冲电路。现如今对于SiC光导开关的研究还处在测试研究阶段,SiC光导开关的触发方式以及电极结构还处于不断优化改进之中。在研究SiC光导开关的理论与实验测试
纳米光栅结构可以对光的透射、反射和吸收等特性进行有效调制。目前,利用纳米光栅结构来对电磁波的振幅、相位和偏振进行调制已经成为了一种常见的方法。纳米光栅结构对光场的强大操控能力具有非常广阔的应用前景,可以应用在纳米激光和全息影像等应用中。然而传统光栅一般采用金属材料,具有较大的损耗。因此,采用电介质材料来代替金属材料来作为纳米光栅结构的原材料可以更为有效的发挥光栅对电磁波的调制作用。提高光场束缚能力
第三代宽禁带氮化镓(Ga N)半导体材料,凭借着宽带隙、高电子饱和速度、高击穿电场强度和高热导率等显著特点,是制备高频高功率微波器件和高效率功率开关器件的优选材料。由于大尺寸、低缺陷、半绝缘氮化镓单晶衬底制备困难且成本较高,Ga N高电子迁移率晶体管(HEMT)通常在蓝宝石、硅和碳化硅等衬底上异质外延制备。异质外延的Ga N材料中有较高密度的位错缺陷,导致了器件具有大的栅极反向漏电和低的击穿电压。
随着全球信息化时代的到来,数字信号处理的速度不断攀升,移动通信、物联网、便携设备等飞速发展,对连接模拟信号与数字系统电路的“桥梁”——模数转换器(ADC)的各项性能要求越来越高。随着智能化时代对电子设备需求的提升,研究高速ADC以适应数字系统的速度是当前ADC研究的热点。在各种类型的ADC中,SAR ADC以其功耗低、结构简单、高度数字化、易于集成等优点,逐渐受到市场的青睐,受益于工艺水平的提升、
随着绿色低碳、节能减排发展理念的推广和实施,研发高性能、高可靠性的新型半导体功率器件已经成为提升电力电子技术整体性能的关键途径之一。相比传统硅基功率器件,氮化镓基(GaN)功率器件具有更高能效、更高工作温度、更高击穿电压等优势,因此发展前景和潜力巨大。然而,在GaN基功率器件的实用化过程中,仍然存在一些迫切需要解决的问题,比如,阈值电压漂移、导通电阻和饱和电流的退化等。尤其是在空间应用中,由于会受
当今世界能源消耗的持续增长依然是人类社会所面临的最严峻的问题之一,电能是人类需求增长最快的能源,电能的传输与使用都离不开电力电子器件,具有高性能和高可靠性的半导体电力电子器件的研发已经迫在眉睫。氮化镓(GaN)基功率开关器件具有耐高压、低导通电阻、高频率、高结温工作能力等优势,然而在实际应用中仍然存在一些需进一步改善的方面,如导通电阻、击穿电压、电流崩塌效应等。为了解决上述问题,本论文针对基于浮空
钙钛矿材料以优异的光吸收能力、低激子束缚能、高载流子迁移率、带隙可调节等特性成为光伏研究领域中最受关注的方向之一。钙钛矿太阳电池在近十余年间发展迅速,其光电转换效率从2009年的3.8%上升到了2021年的25.7%,展现了巨大的发展前景。然而,实现钙钛矿太阳电池在日常生产生活中的应用仍具有一定技术壁垒。在器件制备过程或长时间运行中,钙钛矿薄膜界面以及晶界处存在着大量的缺陷态,这些缺陷导致了光生载
社区团购指先通过微信群从团长处获得团购消息,再从手机APP进行下单,最后到团长自提点取货或送货上门的零售新模式。发展社区团购对于便利消费者、推动服务业数字化、促进“双循环”发展具有重要意义。然而,目前“烧钱补贴”是我国社区团购平台的主要推广方式,存在低价倾销、缺乏创新和不可持续等诸多经济和法律风险,扰乱市场正常秩序。团长服务是社区团购平台运营中非常有特点和关键的一环,平台管理者必须细化对团长服务的