【摘 要】
:
人工智能的应用场景越来越广泛,在图像识别、文本处理、语音识别、决策系统、大数据等应用上,已经达到相当高的水平。由于神经网络的参数量巨大,在成本有限、资源有限、功耗水平有限等众多因素下给神经网络算法部署带来了巨大的挑战。因此,有必要从软件算法和硬件结构两方面对神经网络算法的实现进行加速优化,以满足神经网络加速器高精度、低延迟及低功耗等需求。本文致力于设计一款高性能、高能效的神经网络推理芯片,并从软件
论文部分内容阅读
人工智能的应用场景越来越广泛,在图像识别、文本处理、语音识别、决策系统、大数据等应用上,已经达到相当高的水平。由于神经网络的参数量巨大,在成本有限、资源有限、功耗水平有限等众多因素下给神经网络算法部署带来了巨大的挑战。因此,有必要从软件算法和硬件结构两方面对神经网络算法的实现进行加速优化,以满足神经网络加速器高精度、低延迟及低功耗等需求。本文致力于设计一款高性能、高能效的神经网络推理芯片,并从软件算法和硬件架构两个方面针对神经网络加速器展开深入研究。本文首先深入研究了卷积神经网络的结构组成以及各层结构的特点特性,分析神经网络部署给硬件系统带来的挑战。在算法层面提出针对神经网络模型参数量大以及运算复杂程度高的解决方案,介绍基于传统剪枝与量化方式的多粒度剪枝与多模式量化的优化算法。从硬件方面针对多粒度剪枝算法设计加速核架构,并通过设计可重构运算单元电路适配多模式量化算法。同时为满足神经网络中BN、Pooling等神经网络层结构的运算需求,设计相应的后处理计算模块。本文最后对加速器进行功能仿真和板级测试,对芯片进行资源性能评估,测试结果表明芯片最高频率可达400MHz,最大功耗为212.7m W。针对权重数据采用4bit量化操作,并采用pattern剪枝与kernel剪枝结合的方式,芯片最高可达到8.1TOPS/W的能效比。本文的研究工作在一定程度上解决了神经网络因为其结构复杂和参数量巨大造成的硬件部署困难的问题,基于剪枝与量化方案设计的加速器在性能、效率和能效比等方面表现良好,此方案有助于更大规模以及复杂神经网络的硬件部署。
其他文献
AlN(氮化铝)材料具有超宽禁带宽度、高临界击穿电场强度及高热导率,在下一代高功率、高效率和耐高温电力电子器件方面具有极强的应用前景。然而,AlN材料中掺杂杂质的电离能较高,载流子浓度比较低;另外,由于AlN材料的超宽带隙,传统金属与AlN材料之间的势垒高度较高,很难在AlN上形成良好的欧姆接触,因此,AlN电子器件研制的难度较大,目前报道的AlN电子器件导通电阻很大,输出电流很小,仍处于研发早期
随着“十四五”规划发布,功率器件的重要性随之增加,逐渐成为“十四五”科技兴国线路中的重中之重。作为功率器件的顶梁柱,绝缘栅双极晶体管(IGBT)器件研究与生产也越来越重要。近年来有很多科研工作者一直致力于改善IGBT的工作性能。IGBT研究目前主要存在两个方面的问题,其一是对通态性能与关断损耗之间的折衷;其二是元胞边缘容易引起电场集中,导致边缘处提前击穿耐压下降,需要进行终端保护设计。目前大多数牵
当前互联网流量激增,对网络交换芯片的性能要求日益提高。网络芯片中的硬件查找技术主要用于路由查找、流表匹配,目前在查找速度、表项更新效率、可扩展性等方面仍面临着诸多挑战。因此,研究硬件查找技术,以提升网络芯片性能具有重要的现实意义。本论文工作源自国家部委项目,重点开展100 Gbps传输速率网络交换芯片中硬件查找匹配技术的研究。所实现的硬件查找器具备较低的查找延迟、较快的查找速度和较高的表项更新效率
计算机和通信网络经历了重大的变化,网络设备的设计成本巨大,固定功能的硬件加速器已经逐渐无法适应网络技术的高速发展,并且由于现代网络越来越复杂以及新兴服务所要求的灵活性越来越高,这种共存方式在管理网络基础设施方面带来了极大的复杂性,不断发展的网络需求给网络设备的功能和性能带来了巨大的挑战。传统Open Flow的实现,可编程性能不足,难以实现协议无关处理的需求,这将给设备厂商和用户带来极大的不便。本
生活中我们随时随地接受到各种信息,而信息通常可以抽象为有限字符组成的序列。以DNA为例,它是由A、C、G、T四种碱基有机结合构成的序列。寻找多条序列的最长公共子序列(即MLCS问题)是序列挖掘中最重要的研究方向之一,它在生物信息学、模式识别、文本分析等领域有着广泛应用。但是,在大数据时代,MLCS问题中需要研究的序列数量越来越多,长度越来越长。很多算法无法在可接受的时间内完成求解,甚至会出现内存溢
近几年来市场上对便携式电子产品的需求持续上升,锂电池凭借其自身的优点在便携式电子设备中受到相当大的青睐。本文基于锂电池的基本特性和锂电池的工作原理设计了一款应用于便携设备中高精度、全集成的线性锂电池充电管理芯片,可以实现高精度、宽范围的充电电流功能。本文首先介绍了锂电池的工作原理以及比较锂电池不同的充电策略,在此基础上介绍了芯片的系统整体设计并且给出了芯片的工作参数。紧接着详细介绍了高精度线性锂电
随着数字化技术逐渐应用在我们生产生活的方方面面,数字化控制系统在众多控制领域逐渐成为主流。步进电机是一种将数字步进脉冲信号转变为离散位移增量的执行元件,因转动的角度严格与输入的步进脉冲信号成正比,被广泛应用于开环数字控制系统。然而,步进电机在开环控制中存在着低频振荡、失步、过冲以及噪声大等问题,无法满足更高频率及更高控制精度的驱动要求。因此,研究高可靠性、高控制精度、高集成度、成本低的步进电机驱动
随着集成电路的工艺制程进入纳米时代,芯片内集成的电路规模不断扩大,AMOLED驱动芯片得以飞速发展。芯片的整体架构变得越来越复杂,这不仅对芯片的设计提出了更高的要求,也给芯片测试带来了极大的挑战。可测性设计是在不影响芯片正常功能前提下将测试电路在设计阶段部署到芯片内,增强测试时对电路的可控性和可观察性。为了提高芯片的可靠性,缩短测试时间,可测性设计逐渐成为保证芯片质量和减少测试成本的重要测试方法。
拷贝数变异是人类基因组研究中一种常见的结构变异类型,它由于发生基因组重新排列导致了许多重大疾病,如:肺癌、白血病和心血管疾病等,对人类复杂疾病的研究具有重要的生物学意义。拷贝数变异检测是复杂疾病医学研究中拷贝数变异系统分析的重要步骤,其检测结果的准确性直接决定了该类疾病临床诊断的可靠性和基因治疗策略的安全性。因此,拷贝数变异检测最关键的任务是提高检测结果的准确率和灵敏度。第二代测序平台的最新发展给
景物成像容易受到雾天影响,导致成像不清晰、目标不易鉴别等质量下降问题,广泛使用的基于暗通道先验的去雾算法能够基本消除雾的影响,但产生的某些去雾图像过暗,目标由于光照不足变得特征微弱,图像增强算法在此显示了其必要性,它们在图像特征提取需求中扮演着无可替代的角色。论文的研究重点为单图像去雾和去雾图像增强,在分析暗通道先验和CLAHE算法原理的基础上,围绕边缘保留滤波、大气光估计、对数变换、频域变换以及