【摘 要】
:
在卷积神经网络中,深度学习技术凭借其强大的特征提取能力、较强的分类能力,近年来在自然语言处理、语音识别、计算机视觉等领域都有广泛应用。但这种优异性能依赖于大量的参数量和计算量,随着卷积神经网络应用领域的不断扩大,与之对应的是需要有更好的硬件平台,其中就包括更高的计算能力和更好的数据带宽。目前行业内的佼佼者都在致力于挖掘各种基于芯片的解决方案。而CPU和GPU更高的功耗以及需要根据场景进行布置,此方
论文部分内容阅读
在卷积神经网络中,深度学习技术凭借其强大的特征提取能力、较强的分类能力,近年来在自然语言处理、语音识别、计算机视觉等领域都有广泛应用。但这种优异性能依赖于大量的参数量和计算量,随着卷积神经网络应用领域的不断扩大,与之对应的是需要有更好的硬件平台,其中就包括更高的计算能力和更好的数据带宽。目前行业内的佼佼者都在致力于挖掘各种基于芯片的解决方案。而CPU和GPU更高的功耗以及需要根据场景进行布置,此方法已经很难满足日常需求。因此通过专用硬件对卷积神经网络进行加速逐渐成为深度神经网络的重要发展趋势。为了卷积神经网络经济效率最大化目标,就必须实现硬件加速器通用化。有鉴于此,本课题基于神经网络加速器,对目前主流神经网络目标检测模型进行加速,在保证通用性的前提下,完成了加速的目标。本文的研究工作主要如下:通过对神经网络加速器体系架构以及内部各运算单元计算特性进行研究,完成加速器各功能寄存器的配置,在控制通路设计了一种FIFO状态信号配合多级流水的控制结构,解决访存模块相邻单元数据吞吐率不一致、跨时钟域传输、控制路径时序错误问题。对加速器各模块核心算法进行研究,设计加速器卷积模块与池化模块联合运行的工作模式,减少加速器对系统内存的频繁访问,提高数据带宽。通过对加速器内部数据通信方式的研究,完善内部总线协议并设计协议转换模块,为加速器与片上系统的集成提供条件,实现对加速器硬件系统的封装。通过对神经网络加速器软件开发环境的研究,分析编译器对神经网络的调用方式,提出模型量化方法,完成对目前主流神经网络模型的量化,设计数据格式转换程序,将量化后的模型转换为编译器所支持的数据结构,成功对网络模型进行压缩并完成编译。通过对运行时程序的研究,设计用户驱动程序,搭建虚拟测试平台,联合系统内核驱动,在虚拟测试平台实现卷积神经网络的正常运行。基于FPGA搭建神经网络加速器硬件平台,将加速器内部RAM代码转化为行为级描述,完成对加速器板上LUT资源的优化,使用APB与AXI总线协议对加速器进行FPGA映射。通过Petalinux植入嵌入式操作系统,优化加速器系统设备树,完成加速器硬件系统与软件环境的搭建。本文基于ZCU102开发板,完成神经网络加速器硬件优化以及软件设计,以手写数字识别网络对搭建的加速器硬件系统进行测试,系统工作频率为100 MHz,平均一张手写数字识别时间为2 ms。最后对目标检测网络进行实现,在仅消耗25%的板卡资源下,完成对目标进行识别,其速度可达16帧。
其他文献
近年来,复杂网络理论被大量用来描述大脑网络结构演化规律及网络信息传输性能,并在医学、生物、传统通信等众多领域都取得重大突破。将大脑神经系统与复杂网络结合,探究真实大脑网络结构及其信息传输机制,不仅能促进以数据驱动的新一代脑科学的进步,还能为实现以仿生驱动的类脑智能技术的提供理论基础。首先,本文指出在构建大脑网络模型时,没有实现真正的仿生,难以模拟真实大脑中信息传输机制的问题,分析当前类脑神经元网络
DC-DC变换器被设计为在额定输出功率下实现所需的效率需求。而在高功率密度应用中,发热限制是主要考虑因素,增加便携式设备的电池寿命和降低市电供电设备的待机功耗因而变得迫切。另外电源正朝着更高的开关频率发展,以减小无源元件的尺寸,但导致了更高的开关和栅极驱动功率损耗。在用于电池供电设备的集成电源管理IC中,必须优化系统以实现尽可能长的电池寿命,而负载电流的统计分布人们并不知道。在此背景下,开关电源能
近年来,随着计算设备算力的提升、高质量数据集的构建以及先进模型和算法的提出,人工智能逐步缩小了与人类的差距,并在多个领域击败了人类。在人工智能的发展过程中,深度学习扮演着至关重要的角色。令人遗憾的是,深度学习模型的优异表现需要有大规模数据做支撑,这阻碍了该类技术在现实生活中的应用。如何让深度学习模型从数量有限的数据中提取有效信息并具有较高的泛化能力,这一问题促使学者们提出了少样本学习。学者们针对少
在现代信息化社会中,电子投票逐渐取代了传统的纸质投票方式,受到了越来越多的研究者的关注。然而,电子投票系统面临着选票隐私泄露、选票填充攻击、投票活动被恶意投票者中止等诸多安全挑战,严重制约了其广泛应用。与此同时,区块链作为基于点对点网络的分布式账本,具有去中心化、去信任、不可篡改的特点,这些特点与电子投票系统中的公告栏的安全要求不谋而合。因此,将区块链技术与现代密码学技术,如零知识证明、承诺、签名
无人机已广泛应用于不同领域中,随着任务场景不断的复杂化,单架无人机已无法很好的完成探测、侦察任务。多架无人机构成的无人机集群在任务执行时需要协同配合完成信息交换和收集,而一个良好的无人机集群自组织网络(Flying Ad Hoc Network,FANET)是集群内部完成信息交换的基础。在FANET的研究中,无人机高速移动造成网络拓扑剧烈变化以及无人机节点自身能量有限是影响无人机集群网络性能的两个
过去的五十多年间,芯片上集成的晶体管数量在摩尔定律的引领下每两年增加一倍,其速度和效率持续提高,但是自从半导体工艺进入到28nm节点后,先进工艺所带来的研发成本和物理极限问题加大了延续摩尔定律的难度。在这样的背景之下,芯粒技术的出现为维持性能、制造成本和物理极限三者之间的平衡提供了可能,设计人员将复杂的So C按照功能划分为多个裸片,完成裸片之间的互连后将它们封装在多芯片模块中,多个裸片协同工作,
随着电动汽车产业的发展,对芯片的需求量日益剧增,国内的车企大多使用国外的芯片作为主流产品,来获得汽车的电气系统的稳定性与可靠性。步进电机驱动芯片是车规芯片中最常用的芯片之一,被应用在各种机械连接的场合下。但我国车规芯片的发展时间较短,稳定性和可靠性目前没有得到国内市场的认可,可替换性较差,所以对车规芯片所需的高可靠性和稳定性研究也越来越受重视。本文对步进电机的原理和步进电机驱动芯片的原理进行分析描
随着数字图像处理技术的日益发展,普通的数字显示设备由于自身工艺的限制,其动态范围难以达到人眼的级别,再加上成像环境的影响,显示出的图像经常存在着曝光不平衡、颜色失真和运动阴影等问题,图像质量已无法满足人们的要求。宽动态范围(Wide Dynamic Range,WDR)技术则正是致力于解决此方面的问题,借助于WDR技术,数字显示设备能够分辨出图像最亮和最暗的部分,因此对于图像高光和阴暗区域的曝光能
随着芯片制造工艺的发展,单个晶体管的体积和功耗变得越来越小,单位芯片面积可集成的晶体管数量遵循摩尔定律提升,这导致高端芯片的整体功耗在不断上升。晶体管密度的增加使芯片上的金属布线变得越来越密集和纤细,芯片整体功耗的增大又使金属布线的电流密度越来越大,从而引发了芯片出现EM、IR-Drop等非理想效应,这些效应对芯片的可靠性构成了严重威胁,同时芯片整体功耗的上升也给芯片的热设计带来了巨大的困难,可以
近年来,无线充电技术的普及对各类便携电子设备提出了快速发展的要求。无线充电芯片由于其耦合线圈输入范围较宽,无法直接对芯片内部各个功能模块进行供电,所以需要一种低压差线性稳压器(LDO,Low Dropout Regulator)电路,可将输入电压转换为合适的低电压并对内部电路供电,从而使无线充电芯片内部模块正常工作。基于上述问题,本文的主要研究目标是设计一个用于无线充电芯片内部的宽输入LDO电路。