稀疏神经网络芯片设计关键技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hesion001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在新一代人工智能技术的发展浪潮中,大量需要由人类完成的工作正在被智能化机器所取代,人工智能技术将机器的智能提升到接近普通人类的处理水平,使得机器能够处理人类经常完成的简单到复杂的任务。人脑被认为是目前最强大的智能体,具有极高的空间结构复杂度和运行效率。受生物脑科学研究的启发,人工神经网络算法被提出并且得到了飞速发展,在不同的应用领域都获得了非常显著的成绩,例如计算机视觉领域的图像增强、图像分类、人脸识别、图像风格迁移、目标追踪检测等应用,自然语言处理领域的语音识别、智能问答系统、机器翻译、情感分析、文本分类等应用,以及生物信号处理领域的脑机接口、疲劳检测、病症辅助分析、心律异常检测、癫痫检测等应用。然而,CPU、GPU等通用计算平台由于硬件体系架构的限制,无法满足大规模神经网络模型部署的实时性和低功耗应用需求。为了解决在算力能耗受限的硬件平台上高效部署神经网络算法,促进神经网络通用加速器芯片的实现,本文结合软件算法稀疏压缩和硬件稀疏加速架构开展稀疏卷积神经网络芯片、稀疏脉冲循环神经网络芯片和稀疏模糊神经网络异构加速系统的研究,主要包含以下三个方面的工作:1.提出了一种稀疏卷积神经网络加速器芯片的硬件架构。研究了用于稀疏矩阵运算加速、池化运算加速和激活函数运算加速的稀疏神经网络计算单元的硬件微架构,在此基础上研究了高效的片上存储架构和存储模式。设计了模型的全局均匀非结构化稀疏训练和量化方法,并结合稀疏矩阵运算硬件加速技术以保证芯片的性能和效率。采用了55 nm 1P8M Logic CMOS工艺进行流片及封装测试,面积为4 mm~2,在200 MHz工作频率下峰值算力为288 GOPS。基于VOC2007、COCO2014和红外热成像数据集评估了25%、50%和65%稀疏度下多目标检测应用算法模型在稀疏卷积神经网络芯片上的运算性能,相较于原始模型准确率下降了约1.4%、2.98%和4.04%,计算延迟减少了约33.4%、44%和52.7%,功耗减少了约9.7%、14.5%和17.4%。相较于现有神经网络加速器,该芯片的单位面积能效比提升了4.25到9.44倍,单位片上存储能效比提升了6.35到23.1倍。2.提出了一种稀疏脉冲循环神经网络加速器芯片的硬件架构。研究了硬件友好型的脉冲神经元模型、脉冲编码方法、脉冲算术逻辑运算方法和稀疏脉冲循环神经网络芯片主要模块的硬件微架构。设计了模型的自适应稀疏训练和量化方法,并结合神经元异步脉冲计算和低功耗芯片设计技术以保证芯片的能效和硬件资源消耗。采用了55 nm 1P6M Logic CMOS工艺进行流片及封装测试,200 MHz高性能工作频率下功耗为6.28 m W,1 k Hz低功耗工作频率下功耗仅为2.65μW。基于MIT-BIH数据集评估了25%、50%和65%稀疏度的心律异常检测应用算法模型在稀疏脉冲循环神经网络芯片上的计算性能,相较于非稀疏模型心律异常分类准确率下降了约0.8%、1.94%和2.66%,核心功耗减少了约5.7%、12.4%和16.9%,计算速度提升了约17.6%、40%和58%。3.提出了一种基于卷积结构和模糊逻辑的模糊神经网络像素级图像分割模型,在此基础上研究了一种基于数模混合电路的稀疏模糊神经网络异构加速系统硬件架构。设计了模型的全局均匀非结构化稀疏训练和量化方法,并结合比特级稀疏硬件加速技术以保证系统的能效。采用了28 nm CMOS工艺评估稀疏模糊神经网络异构加速系统中数字逻辑部分的卷积模块,在4-bit和8-bit数据精度下分别获得了14.72 TOPS/W和1.84 TOPS/W的能效比,12.27 TOPS/W·mm~2和1.53TOPS/W·mm~2的单位面积能效比。基于STARE数据集在25%、40%、55%和65%稀疏度下评估了稀疏模糊神经网络异构加速系统部署图像分割应用算法模型的性能,相较于非稀疏的模型计算延迟下降了约45.3%、65.0%、81.3%和91.2%,计算功耗下降了约28.8%、54.5%、74.4%和88.6%。综上,本文提出的稀疏神经网络加速器芯片硬件架构、模型稀疏训练与量化方法有望为最终实现神经网络通用硬件加速平台打下基础。
其他文献
阵列三维合成孔径雷达(Synthetic Aperture Radar,SAR)具有三维空间分辨能力,被广泛应用于环境监测、安检及雷达散射截面积(Radar Cross Section,RCS)测量等军用和民用领域。然而,基于匹配滤波原理的三维成像结果通常有较高旁瓣且易受背景噪声干扰,难以满足高精度成像的要求。基于稀疏重构原理的三维成像算法虽然可以改善图像质量,但是在用于三维稀疏成像时,所需计算时
学位
分布式雷达系统是一种新体制雷达,其将空间内广泛分布的雷达节点,通过组网技术组合为一个有机整体,并以协同的方式对空间信息进行感知与获取。分布式雷达系统具有空间复用性、多自由度等众多优势,是雷达发展的重要方向。对分布式雷达系统的拓扑构型及资源进行优化可以充分利用其分布式探测的体制优势,使系统检测、定位、跟踪等多方面的性能得以显著提升。因此,拓扑构型及资源优化是分布式雷达的关键技术之一,已成为国内外雷达
学位
东北中高纬度地区处于东亚季风边缘地带,发育了大面积泥炭地,对气候变化响应敏感。在湿地生态系统演化、土壤-生态系统共同进化的过程中,磷元素作为重要的营养元素均参与其中。在泥炭地中,有机磷逐渐累积在植物残体中,长期影响土壤磷库及磷形态分配。东北寒冷气候条件和泥炭地厌氧土壤环境使有机磷能够较为稳定的随泥炭层的形成保存在剖面中。不同演化阶段的泥炭地由于植被、土壤环境等原因导致对磷的积累、利用机制差别较大,
学位
目标检测是计算机视觉领域的共性基础问题,在公共安全、智能制造、智能交通等诸多领域,具有重要的理论意义和应用价值。然而,实际应用场景通常包含目标种类数目繁多、尺度变化大、背景噪声干扰以及模态数据差异等复杂分布特性,导致目标检测面临目标漏检、类别混淆、定位困难等关键问题。研究有效的目标检测模型成为计算机视觉领域和多媒体应用的迫切需求。因此,本文围绕上述问题开展视觉目标检测关键技术研究,以构建高效的目标
学位
太赫兹通信技术作为敲开未来6G高速通信的关键钥匙,已成为通信与信息科学领域需求导向的重大科学问题研究方向之一。太赫兹直接调制技术有望实现高速大容量数据传输以及波束的快速捷变和扫描,对于推动太赫兹通信以及成像等系统实现应用有着重要作用。而大功率容量的太赫兹源、高性能的调制器件等诸多核心器件已成为太赫兹应用领域最核心、最亟待解决的关键技术。此外,面向实际应用的太赫兹系统,对模块的集成小型化提出了新的要
学位
不同规模的节理广泛存在于岩体中,是影响岩体力学性能、控制岩体工程稳定性的主要因素。其还是岩体中地下水渗流的主要通道,在外部荷载作用下会发生法向闭合变形,引起节理的微观变化,进而引起渗流。在天然节理中,岩石节理多以充填岩石节理的形式存在,充填介质对变形有很大的影响,因此研究充填岩石节理法向闭合变形特性有着重要的意义。本文制备了具有第5~10条Barton标准剖面线形貌特征的6种水泥浆类岩石节理试件,
学位
秸秆还田是提高农田土壤有机碳储量,维持土壤质量,提供作物养分的重要农艺措施。根际微域是土壤养分转化的生物化学过程的热点区域,植物碳流影响根际微生物的活性,进而影响秸秆氮的矿化速率,解析根际效应影响秸秆氮矿化的微生物作用机制对于提高后茬作物对秸秆氮的利用率,完善农田土壤氮循环理论有重要意义;另一方面,不同秸秆碳氮比影响土壤有机碳沉积及其稳定性,这一转化过程取决于土壤微生物群落的响应,解析秸秆有机氮矿
学位
柱状节理是常见于玄武岩中的一种原生张性破裂构造。由于柱状节理的存在,完整岩块被切割成规则或不规则的棱柱型块体,形成柱状节理岩体,其内部富含多组节理切割面及微裂隙,在开挖前紧密咬合,具有较好的力学性质;但开挖后易错动滑移,力学性质迅速劣化,具有显著的卸荷松弛特性。本文采用室内物理模型试验和理论分析相结合的方法研究不规则柱状节理岩体卸荷力学特性,主要研究成果如下:(1)针对单一柱状节理通过法向卸荷试验
学位
随着国家高速公路网的逐渐完善,高等级宽幅公路逐渐向青藏高原多年冻土区发展。然而,在沥青路面吸热与全球气候升高的影响下,路基底部多年冻土温度会迅速升高,路基将会出现热融沉陷等一系列病害,这给宽幅冻土路堤的稳定带来了更多的困难。通风管路基作为一种主动降温的路基结构,能降低路基多年冻土地温、抬升路基人为上限,现在已经被青藏铁路广泛采用。传统的通风管因为埋设方式受地形限制较大,通风效果差,管口容易被风砂堵
学位
气候变化深刻影响农田生态系统中作物的生长和生产力。磷(P),作为第二重要的植物营养元素,能够调节作物对气候变化的适应性。因此,研究气候变化下作物磷吸收和土壤磷动态对明确气候变化下维持农业生态系统可持续性至关重要。然而,大气CO2浓度和温度升高对作物生长和土壤磷组分的影响,以及相关微生物机制鲜有研究。因此,本研究利用开顶式生长室(OTC)探究气候变化对东北黑土区主要作物大豆、水稻和玉米根际土壤磷组分
学位