【摘 要】
:
传统冯诺依曼架构中处理器与存储单元之间的数据通信开销会导致性能下降和能耗增加,这被称为内存墙。为了克服该瓶颈,可以将计算处理能力集成到内存中,称为存内计算(Computing In Memory,CIM)。基于磁随机存储器(Magnetic Random Access Memory,MRAM)的CIM在访存速度和电源效率方面展现出极高的优势,是人工智能边缘设备中高能效计算操作的有效实现方法。当前基
论文部分内容阅读
传统冯诺依曼架构中处理器与存储单元之间的数据通信开销会导致性能下降和能耗增加,这被称为内存墙。为了克服该瓶颈,可以将计算处理能力集成到内存中,称为存内计算(Computing In Memory,CIM)。基于磁随机存储器(Magnetic Random Access Memory,MRAM)的CIM在访存速度和电源效率方面展现出极高的优势,是人工智能边缘设备中高能效计算操作的有效实现方法。当前基于MRAM的CIM主要依托于对读写电路的重新配置。但是,这种设计面临器件工艺参数波动、较小的读取裕度以及执行多比特操作时的面积-延迟-能耗折衷等诸多挑战。为了进一步研究基于MRAM的CIM电路在设计上的可行性,本文分别对读出范式和写入范式的CIM进行了探索。基于自旋转移力矩(Spin-Transfer Torque,STT)MRAM,本文首先提出了一种周期性裕度增强(Cycle-Sensing Margin Enhancement,CSME)方案,通过周期性的充放电来提高采样电路的输入电压差并扩展采样窗口,进而提升基于读出范式的CIM的可靠性。其次,设计了一种自写中断电路以避免冗余写入造成的能量消耗,并通过增加控制电路用相同的设计结构实现了五种典型的逻辑计算(取反、与、或、异或、全加)。针对磁电随机存储器设计了一种采用反向偏压的读取验证写入电路以提高写入过程的磁向稳定性,并应用于压控写入的存内异或操作。而后实现了两种卷积计算电路,包括二值三权重(Binary-Input Ternary-Weighted,BITW)卷积计算网络和二值化神经网络(Binary Neural Network,BNN)。其中BITW网络采用读写操作结合的方式来实现,BNN采用开多行进行读取的方式来实现。仿真结果显示:TSMC 28nm工艺下,当磁阻率(Tunnel Magneto-Resistance,TMR)降低至70%,读电压降低至0.6V时,CSME方案的输入电压差比传统电压型灵敏放大器(Voltage Sense Amplifier,VSA)采样方案高出2.4倍,读良率提高14.1%以上。自写中断方案在20ns的写操作持续时间内实现了84.7%的能耗降低。将基于自写中断电路的逻辑计算应用于28×28像素的图像相似性分析,与传统的方法相比,实现了24%的动态能耗降低。读取验证写入电路与传统设计相比降低了52%-68.7%的写入错误率,而且压控写入CIM可获得接近读出范式下的CIM速度(3ns以内)。最后在TSMC 28nm工艺下利用BITW网络实现了图像边缘处理的Roberts算子。HK 28nm工艺下,BNN实现电路可获得20ns的计算速度,功耗小于2.74p J。由仿真结果可以得出,基于读出范式的CIM可以获得较快的速度和较低的功耗,但是由于TMR限制,这种计算的操作数有限,写入范式的CIM更适用于对精度和面积要求比较高的场合。
其他文献
【目的】探讨大黄凉血汤在晚期肺癌咯血患者中的临床治疗效果及对凝血因子的影响。【方法】将80例晚期肺癌咯血患者随机分为研究组和对照组,每组各40例。对照组患者采用含铂方案治疗,研究组在对照组的基础上应用大黄凉血汤治疗,连续治疗4个月。观察2组患者治疗前后炎性因子[降钙素原(PCT)和C反应蛋白(CRP)]水平、不良反应发生率、肿瘤标志物[癌胚抗原(CEA)、骨胶素(CY211)、糖类抗原125(CA
混凝土被广泛应用于现代土木工程领域,但脆性大、抗拉强度低等特性使其在服役过程中极易产生裂缝。基于微生物矿化沉积理论的裂缝自修复技术因具有环境友好性及广泛的应用前景而成为国内外学者的研究热点。为了消除菌粉直接添加时微生物难以长时间存活的弊端,有学者提出了一种包含诸多优势的核壳结构固载方式,然而目前对该种固载方式缺乏系统性的研究。本文通过研究核壳载体自身性能及对比核壳载体使用前后混凝土拌合物性能、力学
资源约束最短路问题是最短路问题的一个重要推广,在通信网络建设、航班机组管理等场景有着广泛的应用。资源可补给的约束最短路问题又是资源约束最短路问题的一个推广,但是已有文献资料中只考虑过一类资源约束并且可补给的问题。由于资源限制和补给的原因,问题的可行解或最优解有可能不是一条路径(点和边都不重)而是一条途径(点和边都可能重复)。本文着重研究了具有两类资源约束并且可补给的最短途径问题,主要内容概括如下:
通信系统一直保持着对中低精度高速模数转换器(ADC)的需求,以此传输电信号或者光信号。在常用的模数转换器中,逐次逼近型(SAR)ADC因为结构简单并且高度数字化,不包含复杂的模拟电路,成为了研究的热点。并且,随着工艺尺寸的缩减,SAR ADC的功耗逐渐降低,速度越来越快,表现得越来越具有竞争力。本文面向通信系统的需求,采用先每步1位(1bit/cycle)后每步2位(2bit/cycle)的ADC
云机器人技术是将云计算技术与机器人技术相结合,即将机器人端密集型计算任务卸载至云端,利用云端强大的计算能力和丰富的存储资源,来降低机器人本体的计算和存储压力。因此,在云机器人系统中,终端设备通过调用云端相关计算与存储服务,可有效提升系统的整体性能。移动机器人SLAM、导航与避障是移动机器人领域典型的密集型计算任务。传统SLAM技术局限于感知环境空间的几何结构信息,无法在语义层次对环境内容进行理解。
无线传感器网络是一种集成了无线通信、信息处理等新兴技术的分布式传感网络,灵活、可靠的特点使其被广泛应用于智能家居、医疗卫生以及环境监测等领域。在无线传感器网络获得广泛应用与认可的同时,其发展也受到了一些因素的制约,时钟同步问题就是其中之一。时钟同步是传感器网络节点协同完成复杂的监测、感知和数据融合任务的基础。然而,作为一种常见的分布式系统,传感器网络中的节点在时间上很难达成一致。与此同时,传感器网
随着我国城乡融合实践的纵深推进,城镇化、现代化正深刻地改变着乡村的风貌,乡村振兴政策支持下的资本要素流动转移成为乡村空间转型的主要促动力。日渐显现的闲置空间正是当前乡村复兴蜕变下一种具有代表性和典型性的空间现象。论文关注的这类空间不同于具有空间年代指向的城市老旧房产、工业遗址,也不同于人口外流、整体退化的萧条“空心村”,是当下乡村建设进程中的产物。理性观察资本关联下的乡村闲置空间现象,分析其产生的
本文以耐火材料氧化镁为基体,以CaCO3、Al2O3为矿化剂,木粉为造孔剂,采用压制成型法制备了镁基陶瓷型芯,研究了矿化剂、造孔剂、制备工艺、烧结工艺等对型芯室温抗弯强度、烧结收缩率、气孔率、断口形貌和物相组成的影响,测试了型芯在醋酸溶液中的溶解溃散性。以400目氧化镁为基体,不同粒径Al2O3为矿化剂,随Al2O3粒径减小,陶瓷型芯抗弯强度提高,但溶解溃散性变差。以150目、200目和400目氧