基于非易失性存储单元的神经网络加速器设计

来源 :湖南大学 | 被引量 : 0次 | 上传用户:k88ls06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,深度置信网络(deep belief network:DBN)、卷积神经网络(convolutional neural networks: CNNs)等主流神经网络模型在众多领域取得了非凡的成绩。如C-NN在图像识别上可获得超越人类的识别精度。神经网络取得的成功主要源于两方面:一方面,越来越深的神经网络模型使得神经网络能有效处理更复杂的问题;另一方面,可供训练的海量数据资源使得神经网络能够获得充分训练,从而具有更好的决策能力。然而,上述两方面提升神经网络性能的同时也带来了大规模的计算参数,这为硬件加速处理带来了巨大的挑战。为应对大规模计算参数挑战,高性能加速器架构成为当前的研究热点。
  在众多高性能硬件计算架构中,由于能突破传统计算架构的存储墙问题,基于非易失性存储(non-volatile memory:NVM)器件的计算架构具有巨大发展潜力。这是由于基于NVM的计算架构是一类存算一体化的架构,支持直接在存储单元内进行计算,无需执行从存储器读取数据到计算模块的操作。现有的NVM器件主要包括忆阻器、忆容器等。与传统冯诺依曼处理器中存算分离计算模式相比,NVM加速器通过直接在存储器内执行计算,大规模减少数据移动量,能有效降低访存开销、提升计算性能。
  然而,现有的NVM加速器结构仍面临以下挑战:1)受限玻尔兹曼机(restricted Boltzmann machine:RBM)作为DBN的基本结构,其训练过程中包括频繁的正向和反向传播迭代计算,现有存内计算加速器在处理迭代计算中间结果时,需要消耗大量的硬件资源,硬件处理周期长,导致计算能效低;2)CNN中存在大量的可复用数据,这些可复用数据存在于不同的行和列中。然而,现有的存算一体化存储部件由于不支持行、列双向访问,不能有效利用卷积中的可复用数据,存在灵活性差的问题;3)现有的忆阻CNN加速器由于无法处理卷积输入中的交叠数据,不能有效利用可重用数据,导致硬件计算能耗高;4)神经网络加速器中单个神经元电路面积大、功耗高,导致可扩展性差的问题。
  针对以上挑战,本文以基于NVM的神经网络加速器为课题展开研究,通过相应功能电路模块的设计与研究,探索降低大规模神经网络硬件计算的能耗和面积开销。具体研究内容如下:
  1.针对RBM训练能效低的问题,提出一种新型的忆阻RBM加速器。该加速器采用2块忆阻器阵列存储RBM正、反向传播权重,并通过忆阻缓存器连接RBM神经元输出和权重阵列,形成存储单元与计算单元的并联结构,并行执行神经元输出值存储与权重阵列的乘加(multiply-and-accumulate: MAC)计算,实现一个计算周期内计算RBM的正/反向传播过程,提升RBM训练的计算能效。
  2.针对存算一体化存储器在卷积复用计算时不支持行列双向访问的问题,提出混合CMOS忆阻器的行列双向访问存储器。在该存储器中,忆阻器单元用于存储数据,并通过结合CMOS晶体管构建行列访问路径,形成具有行、列双向访问功能的存储器,提升对局部数据的访问效率,降低卷积神经网络硬件计算的访存开销。
  3.针对现有的忆阻CNN加速器不能有效处理卷积计算中输入数据交叠的情况,提出基于忆阻器的数据复用加速器。该加速器基于卷积步长对输入特征图和卷积核进行切片处理,消除不同卷积步长对忆阻阵列间数据复用的影响,使得输入数据可在相邻的忆阻交叉阵列中进行复用。该忆阻加速器内部的交叉阵列按照切出的卷积核数据片进行部署,用于支持复用数据流,实现数据复用计算,减少数据移动,节约能耗开销。
  4.针对神经网络近似计算电路可扩展性差的问题,提出基于忆容器的低功耗紧凑型神经网络加速器结构,通过配置忆容值形成不同的神经网络连接,实现近似地计算不同的数学函数。在该加速器中,多个忆容器直接与MOS晶体管的浮栅极相连,形成结构简洁的可编程Neuron-MOS结构,降低神经形态计算电路的面积开销,提高可扩展性。此外,该忆容加速器利用电容耦合原理实现神经元的超低功耗计算,有效降低神经网络计算开销。
  上述研究内容所完成的一系列基于非易失性存储器的存储/计算结构设计和研究,有效探索大规模神经网络计算开销的节约空间,这对相应功能电路的设计具有重要的理论意义。
其他文献
AileenGift  简介:AileenGift是一个正在成长中的设计师品牌,专业的设计师充满敬业精神,善于跨越时间、地域、文化,呈现富有美感的混搭与兼容,倾心传授关于花艺的知识和最新流行的设计思想。  特色课程:永生花DIY沙龙  价格:350元/人  永生花是用高科技手段,将鲜花经过脱水、保色、干燥等复杂程序加工而成。它的色泽、形状、手感与鲜花无异,只是可以更长久地陪伴(约3年)。永生花di
期刊
世界上最古老的酒  黄酒古来是中华特产,属酿造粮食酒。与啤酒、葡萄酒并称世界三大古酒。约在三千多年前的商周时代,中华先民就独创酒曲复式发酵法,开始大量酿制。黄酒以大米、黍米为原料,一般酒精含量为14%—20%,属于低度酿造酒,易上口,不伤身。因原料丰富又温润柔和,黄酒产地较广,品种很多,现在中国许多省份都能找到当地特产的黄酒。而几个产销大省,又有细分,其中浙派黄酒以浙江绍兴黄酒为代表(除去绍兴产的
期刊
更加小巧,更加真实  我们能轻易地通过声音辨别最熟悉的人,辨别是人类与生俱来的能力。当然,你在听音乐的时候若能鉴别出几分细腻,恰恰是细腻才能最直接地触动内心真实的自己。在这声质方面,扬声器是把可听范围内的音频电功率信号通过换能器,把它转变为具有足够声压级的可听声音。在还原音质方面,无疑BeoLab 20更加出色,BeoLab 20高端无线扬声器采用极简线条设计,更加小巧的体积却蕴含无比澎湃的音乐能
期刊
或繁或简,吊灯在屋顶领域称王称霸。吊灯通常非单支,犹如星星一样,带点儿不一样的浪漫,通常落户在客厅及餐厅,装饰着我们的小小领空。吊灯式样要参考房间高度,更要匹配家居风格。  无论是书房的台灯还是卧室的台灯,它更多属于我们的私人时间,静守着我们独处的时光,带给我们恒定的光和亮。某种程度上,台灯犹如我们的贴心知己。同为贴心知己,它也可以有不同的面孔和风格哦。  落地灯虽然相较吊灯、台灯等略占据地方,但
期刊
编织室外吊灯  这款室外吊灯灵感来自地中海上的捕鱼器,最后造型像天上柔软的白云以及浪花泡沫。将定制的金属网捕鱼器与手工织物结合在一起,成就了这款灯光柔和温馨,很有夏季海滨温馨气息的吊灯。  三种尺寸,黑色或金色,可折叠,易于安装。  蚕茧灯  可以放在桌上,也可以挂起来的蚕茧灯采用了黑色,白色,灰色的感光树脂。白色部分非常坚硬,提供了刚性承载,具有良好的漫反射性。黑色部分是用于勾勒表面,提供色彩对
期刊
结构光三维重构技术是一种非接触式的光学测量手段,利用被测物的一组结构光图像,能高效准确地计算出无纹理被测物的表面三维形貌和所处的空间位置,能广泛应用于工业检测、生物医疗、数字化建模等领域。本文基于普通正弦条纹结构光,采用集中型高频编码策略,将伽马系数融入结构光编码公式中,提出了一种由变形正弦条纹组成的高抗性结构光。高抗性结构光可以利用系统非线性在照片中恢复自身的正弦性,并能有效抵御环境因素的干扰,
移动机器人定位技术是实现导航任务的关键条件,其目的在于确定机器人在全局地图中的准确位置以实现精确的位姿跟踪。全局自定位过程需要在完整的场景空间中进行位姿搜索,计算量极大并且定位过程中潜在的场景二义性、局部场景动态变化等问题将导致先验数据关联失效,从而造成定位精度下降甚至全局定位失败。二维图像匹配定位技术可以快速确定机器人的全局位姿,但位姿估计精度不高,通常应用于视觉初定位阶段;三维点云配准定位技术充分利用了环境结构信息,可获取高精度的机器人位姿,通常应用于精定位阶段。综合考虑,本文结合两种定位技术提出了一
水泥工业是国民经济的基石产业,提高水泥熟料烧结过程的信息化和自动化水平是提高产品质量、降低能源消耗的重要途径。但是,熟料烧结过程属于典型的非线性动态过程,具有大时滞、强耦合等特点,且处于高温、多粉尘的封闭回转窑内。在这样复杂恶劣的环境下,难以用传感器直接测量熟料烧结过程信息,成为水泥生产自动控制理论与技术面临的瓶颈问题。
  针对以上问题,本文依托国家自然科学基金项目,综合运用水泥熟料烧结过程的机理知识及数据,深入研究熟料质量(游离氧化钙含量)、窑体热损失、窑内物料料层高度等重要过程信息的软测量方法
随着人工智能的高速发展,各主要经济体相继出台了促进人工智能发展的国家级战略规划。作为我国人工智能发展规划中重要组成部分,自主无人系统(如无人驾驶、移动机器人等)因此受到了企业与高校的广泛关注。为满足自主无人系统的场景理解需求,旨在为像素提供类别标记(如汽车、交通灯)的语义分割随之成为研究热点。近年来,深度学习的快速发展极大提升了语义分割的精度,然而,得益于实验平台丰富的计算资源,大部分高精度模型忽略了模型效率,因此难以应用于以嵌入式平台为主的自主无人终端。为此,针对自主无人驾驶场景理解需求,本文重点研究面
“酿制”的织物  这些清新淡雅的织物出自荷兰阿姆斯特丹的女性设计师Mae Engelgeer,她在阿姆斯特丹开设了自己的工作室,作品常常采用各种鲜艳醒目的色彩,运用独有的图案样式与色彩搭配,创作出别具一格的织物,为生活带来不一样的色彩与品质。  设计:Mae Engelgeer  网址:http://www.mae-engelgeer.nl  取名为“嫘祖”的蚕丝鞋  两位德国设计师Nicole
期刊