千核能拥有怎样能力 走近RISC-V超大规模人工智能芯片

来源 :微型计算机 | 被引量 : 0次 | 上传用户:q5479333321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  RISC-V近年来的发展势头不错,其开放、免费的特性吸引了大批企业、研究人员的关注,采用RISC-V架构的产品也逐渐向各个方面延伸。2020年底,一家名为Esperanto的公司公布了一款采用RISC-V架构的超大规模高性能Al芯片,由于其独特的设计和理念,在发布后就引发了业内关注。不过当时并未公布太多信息,直到近期,Esperanto才披露了这款产品在架构、设计以及运行方面的详细信息,值得一看。
  目前AI芯片是业内热门的发展方向,考虑到未来AI计算广阔的市场前进,大量企业都希望参与其中。目前设计AI芯片的方法多种多样,比如采用x86架构、ARM架构组建CPU来实现,或者采用自有指令集设计,这些不同的方法拥有各自的优势和不足。Esperanto作为一家初创公司,选择了RISC-V指令集来制造一款全新的AI芯片。不僅如此,这款产品还包含了高达238亿晶体管,以及超过1000个核心,规模之大令人咋舌。ET-SOC-1处理器总览
  Esperanto推出的首款处理器全称是“Esperanto Technologies Supercomputer-on-Chip 1”,缩写为“ET-SoC-l”。它定位一款推理加速器,而不是常见的训练加速器。一般来说,神经网络需要在训练完成建立模型后,才交由推理加速器进行推理。在训练阶段需要大量的原始数据、极高的计算能力和较长的训练时间。推理时间则相对短一些,它使用训练模型来完成,因此对计算能力要求不高,但是对延迟很敏感。因此在设计方面,ET-SoC-1需要进行针对性优化。
  ET-SoC-1包含了2个类型的核心,一个被称为ET-Minion,是一种顺序执行的小核心,用于处理矩阵乘法、自定义张量计算等。另一个被称为ET-Maxion,是一个较复杂的大内核,能够运行Linux操作系统。在ET-SoC-1中,ET-Maxion被用作控制CPU,ET-Minion则被用作并行数据处理使用。
  ET-SoC-1设计了一个6×6网格,一共36个区块,其中2个被用作控制处理器集群和PCle控制器,其余34个全部布局了被称作Minion Shires的ET-Minion处理器集群。1个Minion Shires中包含了总计32个,分为4组的ET-Minion核心,这样它一共拥有1088个(34×32) ET-Minion核心,以及这些核心所拥有的总计136MB L2缓存。实际上ET-SoC-1中还有1个额外的ET-Minion核心用作服务处理器。在控制中心方面,4个ET-Maxion和4MB L2被集成在一个区块上,用于运行操作系统等。此外,ET-SoC-1面向超大规模的数据中心市场,这意味着它也可以和高性能独立处理器一起工作。对一些边缘应用而言,ET-SoC-1配合高性能独立处理器可以发挥更大的作用。加总起来,ET-SoC-1拥有1093个核心。
  ET-SoC-1采用了台积电7nm工艺,拥有238亿晶体管。虽无芯片面积和封装尺寸的信息,但根据同类产品进行估计,ET-SoC-1的封装面积可能在350mm2以上,算得上中大型处理器。单个ET-Minion可以在1GHz频率下实现INT8精度的1280PS/周期或者128GOPS算力。用此数据计算的话,在1GHz频率下,所有1088个ET-Minion核心可以输出最多139.3 TOPS算力(INT8)。随着频率提升,ET-SoC-1的算力也会增长,比如在1.5GHz下,ET-SoC-1的算力会提升至208.9TOPS (INT8)。ET-SoC-1支持FP16(半精度)或者FP32的计算,但算力相比INT8低不少。在1GHz时,ET-SoC-1的FP16算力为35TFLOPS,在1.5GHz时会提升至52TFLOPS。
  ET-SoC-1使用低功耗的LPDDR4接口进行数据通信和供电,最多支持32GB容量的DRAM,最大带宽可达137GB/s。ET-SoC-1还可以通过PCIe 4.0x8接口和外界连接。ET-SoC-1的典型工作功耗大约在20W,也可以低于它。这么低的功耗是由于芯片的运行频率非常低,只有1GHz~1.5GHz,且整体规模不大,这使得ET-SoC-1符合OCPM.2加速器模块的规格。不过未来ET-SoC-1还可能会衍生出支持PCIe接口,具备更高规格和功耗的产品。深入ET-SoC-1核心架构
  接下来让我们深入ET-SoC-1内部,去看看这款RISC-V架构的处理器到底有哪些独特之处。首先是负责控制的ET-Maxion核心的架构设计。
  ET-Maxion:性能堪比Cortex-A72的控制核心
  ET-Maxion是一个典型的高性能大核心。和之前提到ET-Minion运行在大约1GHz~1.5GHz不同的是,ET-Maxion运行的频率要高一些,超过了2GHz。从设计上来看,ET-Maxion实际上是UC Berkeley Out-of-Order Machine (BOOM)v2 CPU(简写为RISC-V BOOM)的一个分支。它是采用Chisel硬件构建语言编写的一个可合成和可参数化的开源RV64GC RISC-V核心。由于它是开源的,所以厂商可以在开源许可文件的约束下自由使用它,一般人们会利用RSIC-V BOOM构建高性能处理器。Esperanto正是利用RISC-V BOOM构建了ET-Maxion的基本架构。
  相比RISC-V BOOM,ET-Maxion在各方面都进行了大刀阔斧的改进,比如ET-Maxion更宽、更长、规模也更大,前端经过了重新设计,执行单元也进行了重制,并加入了分支预测器和预取器,还带来了新的底层缓存和支持ECC的TLB。由于ET-Maxion要面向商业用户,因此还增加了商业级别芯片的调试和性能监控等功能。
  在SPEC2006的ISO频率上ET-Maxion的性能略逊于Cortex-A72,但高于Cortex-A57。仅从性能来看,ET-Maxion在RISC-V架构下排名靠前,仅弱于SiFive的P550内核,后者的IPC显著高于ET-Maxion以及Cortex-A72,SPEC2006测试成绩大约有8.65/GHz。   ET-Maxion是典型的10级流水线的乱序执行架构。它的前端是一个4发射结构,每周期能够获取16B的数据,解码后以每周期4条指令的速度将其分派到后端执行部分。整个架构也可以从具有奇偶校验和ECC功能的32KB分块指令缓存中获取指令。Esperanto花了相当大的精力为它设计了先进的条件预测器和拥有2K条目深度,支持BTB、基于路径的间接预测器。最终,ET-Maxion的分支预测器实现了2级预测:高速度且单周期运行、基于BTB的预测执行得到结果后,输入第二级多周期、高精度分支预测器中进一步处理,后者的结果可能会覆盖前者,也可能不会。
  ET-Maxion的前端每周期最多可以向调度部分发送4个指令。ET-Maxion使用的是分布式调度器,总容量为64个条目。ET-Maxion的重命名/分配/提交重排序缓冲区的深度为128条目。前端解码后的微指令在这里暂存并进行排序、重命名或者分配处理,等待进入后续的执行单元。
  执行单元的分派部分设计非常独特,由1个128条目的整数通用寄存器文件和1个64条目的浮点寄存器实现,整个分派部分每次可以输出5条指令。这5条指令指向后部的4个调度队列,每个调度队列都是16深度的。其中,FPU执行单元拥有1个调度队列,剩余整数部分的复杂ALU、2个简单ALU和AGU各拥有1个调度队列。值得注意的是,2个简单ALU共享一个调度器,另外,复杂ALU还加入了分支预测单元,能够处理部分分支预测操作。所有4个调度队列每周期可以处理5个微指令输出的操作。浮点单元设计为64bit宽度,能够支持RISC-V 32和双精度的RISC-V 64浮点扩展。
  Esperanto本来计划选择自定义指令集,但是考虑到通用性、简单性和市场接受度等因素最终选择了RISC-V。Esperanto希望将更多精力花在性能和架构方面的优化上,而不是去解决ISA的问题。Esperanto展示了ET-Maxion的平面图,其中几乎1/3的面积用在缓存和分支预测上。另外占据较大面积的部件包括硬件预取器HPF、FPU浮点单元、LSU、000乱序引擎等。ET-Maxion的硬件预取器选用了更慢但是更准确的版本,反而可以提高性能,将其放置在芯片的顶部以及关键路径的外部,可以简化接线。
  ET-Minion:专精于大规模计算的小核心
  Esperanto设计了用于大规模并行计算的专用小核心ET-Minion。它和ET-Maxion存在巨大差异,虽然也是一个64位的RISC-V核心,但采用的是顺序执行架构。ET-Minion由于面向吞吐量,因此也采用了多线程的方案,它具有2个可以在停顿时交换的线程。ET-Minion采用标量流水线设计,每个周期获取、解码和发出一条指令,然后进行处理并输出结果。
  ET-Minion的主要目的是加速推理计算,针对这个类型的计算,Esperanto为其设计了全新的执行引擎。ET-Minion的后端为矢量密集型,为了节约资源给矢量计算,ET-Minion只設计了一个执行单元来执行RISC-V架构所需的所有必要操作。其余部分包括2个执行管道,1个256bit的浮点矢量单元和1个512bit的整数矢量单元。伴随着这些矢量单元的是2个寄存器,1个32条目的256bit浮点寄存器和1个32条目、256bit的整数寄存器。寄存器对每个线程来说都是重复的,这意味着总计有2个“整数寄存器+浮点寄存器”组,每一组分别服务于一个线程。浮点矢量单元又可以细分为8×32的FMA,每周期可以提供单精度16FLOPs的性能,或者每周期半精度32FLOPs的性能。整数矢量单元的宽度是浮点单元的2倍,又被细分为16×32 TIMA,每周期能够执行128个INT8操作。在工作模式上,FP矢量单元从FP矢量寄存器中读入数据,但是整数矢量单元需要从FP矢量寄存器文件中获得一半的矢量信息(256bit),再和私有整数矢量寄存器中获得的信息组合起来,才能实现整个512bit宽度的寄存器文件。
  从整个架构设计来看,Esperanto在ET-Minion中加入了如此强大的浮点计算能力,这还是非常少见的。因为绝大部分类似的产品都只提供INT8操作的能力。虽然对现有的计算来说,INT8其实很多场合下已经足够使用了,但是对那些需要FP16或者FP32的工作负载来说,ET-Minion的确更具优势。
  ET-Minion包含一个矢量超越单元。这个单元可以执行超越函数,比如各类三角函数、指数、对数的计算,以加速诸如激活函数等操作。这个超越单元的设计非常有趣,它基于ROM进行,这有助于降低功耗。
  除了矢量单元外,ET-Minion还集成了一个矢量超越单元,可以执行超越函数,如各种三角函数、指数和对数,以加快激活函数等。另外,Esperanto在矢量单元的设计上还做了一些独特的操作,除了标准的RISC-V的矢量指令外,Esperanto还加入了2条独特的矢量扩展指令,一个是多周期张量指令,另一个是伴随前者的矢量超越指令。实际上,这两条指令对AI相关的计算是非常重要的,RISC-V和其他指令一样,都对AI计算这种新生事物缺乏支持,原始的指令集也没有集成相关加速的指令,因此厂商在这里添加了自有的指令集,这也是可以理解的。实际上,RISC-C基金会也—直在做类似的操作,比如将自定义扩展植入规范中,以便更多的用户使用。不过这里存在一个知识产权的问题,Esperanto可以宣称这个指令集是自己的知识产权以阻止第三方使用,但是现在Esperanto没有这样做,目前尚不清楚Esperanto对这些私有的指令集的处理方法,如果能够开放给业界使用的话,肯定能在很大程度上推进整个产业的发展。
  具体到这两个指令集来看的话,多周期张量指令集的特点是允许内核读取一条指令,通过引入张量定序器状态机(Tensor Sequencer),可以在100多个甚至1000多个周期内重复操作。和大多数定序器一样,ET-Minion为整个前端和其他每一个在张量操作发布和执行时没有被利用的单元设计了门控操作。这使得内核能够进一步削减功耗。   另外还有一点需要提及。ET-Minion的物理设计为了低功耗做出了很多优化。比如为了提高低电压下的频率,ET-Minion的流水线被设计为较少的级数。另外,Esperanto还设计了自己定制的SRAM而不是台积电的标准SRAM。这种定制单元虽然在物理实现上要比台积电的标准单元更大,但是可以在更低的电压下稳定运行,甚至远远低于额定电压。这里的额定电压可能在0.75V左右,但是Esperanto的SRAM可以在0.4V下稳定运行,这又可以节省—大部分功耗。
  从核心到区块再到片区:ET-SoC-1的实现方式
  ET-SOC-1内拥有大量的核心,那么他们是如何集成和工作的呢?在这里,Esperanto带来了区块和片区的概念。
  先来看看区块。以1个ET-Minion为基本单位的话,8个ET-Minion可以被看作是一个区块。在一个区块内,每个内核会竞争性的共享32KB指令缓存。每个周期,一个缓存行数据被发送至2个内核。换句话说,指令缓存在每个周期内轮询一堆内核,将64B的16条指令发送到2个独立的内核,内核对这些信息进行缓冲存储,允许他们在指令缓存转移到其他内核的时候继续运行。
  在区块之上是片区。4个区块结合成为1个片区,1个片区拥有32个核心。每个区块通过交叉开关连接到周围的4组L2缓存。1个L2缓存包含4个1MB的SRAM组,可以通过软件配置其为高速缓存或者暂存器访存。在暂存器的配置下,整个缓存将被视作一个很大的地址空间,软件可以使用它精确地访问数据。有趣的是,默认情况下,片区的L2缓存都是私有的,当然也可以配置为跨越整个芯片的最后一级缓存,所有这些功能都以每個缓存Bank的粒度进行配置。比如,一个缓存Bank可以被保留为暂存器,另一个可以用于1MB的片区LCC,另外两个Bank可以配置为2MB的私有L2。每个片区都可以通过网状互联和其他的片区通讯,每个区块都有一个网络接口站点。
  最后每个片区都通过网状连接至其他任何区块和芯片上其他任何组件,链接采用的数据位宽可能是1024b。此外,芯片上另一些组件比如内存通道和PCIe接口等,都通过类似的网络连接至整个芯片上,最终组成ET-SoC-1芯片。
  最后来看看有关ET-SoC-1芯片的具体产品实现。Esperanto现在推出了名为OCP Glacier Point V2的加速卡,采用OCP M.2加速器模块加速。Esperanto宣称可以最多在OCP Glacier Point V2加速卡上封装6个加速器模块,这样一来,每个OCP Glacier Point V2加速卡将拥有6558个RISC-V内核、192GB的LPDDR4X内存以及822G B/s的DRAM带宽。这个模块的理论峰值速度将达到835.6TOPS (INT8)或者210TFLOPS(FP16)。
  写在最后
  可以看出,ET-SoC-1是一款面向应用市场推出的产品,其设计和架构都针对应用做出了优化,并且最终的产品实现也非常成熟。同时,ET-SoC-1代表着RISC-V首次同时涉足高性能控制核心和超大规模并行计算。目前ET-SoC-1还处于早期实验和推广阶段,它的理论性能和实际表现究竟如何还不清楚。在今年的HotChip 33上,ET-SoC-1芯片也有更进一步的展示,本刊会继续保持关注,在之后给大家带来更深入的报道。
其他文献
韩国网络文学起步于20世纪90年代。与中国网络文学类似,由于具有不同于传统文学的“看点”,它迅速积累了热度。当前,无论是中国还是韩国,网络文学已经不仅仅是“文学”,更是“IP(Intellectual Property)”,通过向影视、游戏等不同文化形式的“变奏”,在文化产业市场上发挥着日益重要的作用。  但是,由于不同的大众文化产业和互联网环境,两国的网络文学呈现出了不同的发展形势。如果说,中国
期刊
一、阅读、音乐与游戏  周:乌贼好,几年以前安迪斯晨风、天王小二黑等都对你做过访谈,诸如“我不可能讨好所有人”、“让别人HIGH前先得自HIGH”等标题彰显出了你的一些写作特点,让人记忆犹新,也就在那时,我开始看你的作品,成了你的“铁杆粉”。  爱潜水的乌贼:现在阅读网络文学、探讨网络文学的人越来越多,这也说明网络文学在当下的影响力在与日俱增吧。  周:是的,经过这么多年的发展,网络文学的话语权在
期刊
1080p分辨率是主流级显卡的主战场,相信这是不少游戏玩家的共识,但随着显卡性能的日益增强,当下部分主流级显卡不仅能提供相当强悍的1080p游戏性能,还能在1440p分辨率下带来足够流畅的游戏帧率,华擎Radeon RX 6600XTPhantom Gaming D 8GB OC(下文简称华擎RX 6600XTPGD 8GO)就是其中之一。  外观设计  近两年游戏显卡在外观设计上呈现出百花齐放的
期刊
在2017年,市场上开始出现一种全新比例的显示器—32∶9,相对于以往的21∶9显示器来说,32∶9显示器的尺寸更大,并且更加修长。目前市面上的32∶9显示器大多都是43英寸以上的超大尺寸。同时,根据产品细分领域的不同,有的定位于商用,也有的定位于游戏。不过,显示器的用途并不是绝对的,毕竟从使用上来说,商用和游戏也并不冲突。近期,飞利浦新推出了一款49英寸的32∶9显示器:498P9Z,就能兼顾商
期刊
实战体验  说到SSD,可能现在不少玩家首先想到的就是那些标称速度数千MB/s的NVMe SSD。不过在生活中还有不少人使用缺少M.2 SSD接口的老电脑,还有不少人的预算非常有限,因此价格低廉,规格看起来“落伍”的SATA SSD仍然是这些用户的首选。而存储厂商不仅没有放弃SATA产品线,还在不断推出各类SATA SSD新品,如本次我们收到的英睿达MX500 1TB、台电稳影512GB。  其中
期刊
从2006年诞生到现在,ROG旗下的产品线越来越丰富,而且旗下产品多以电竞和游戏为主打方向,ROG游戏本则更是攀上了这个市场的巅峰。不过从去年开始,ROG游戏本带来了更多玩法,在产品线中除了玩家熟知的枪神、魔霸、冰刀等系列,新增的ROG幻系列则另辟蹊径走上了时尚的路线。特别是去年发布的ROG幻14,它集时尚、高性能、轻薄于一身,在14英寸的笔记本市场中傲视群雄。今年,随着AMD锐龙5000H系列移
期刊
摘要:一本出自鑒定师之手的纪实文学——《DNA鉴定师手记》,描述了各种因血缘而起的爱恨纠葛,离奇诡事。通过书中文字,可以看到人们努力掩藏的阴暗自私,和在极度失望乃至绝望时做出的惊世骇俗之举。一座DNA鉴定中心,如同一面放大镜,所有人性中的美善丑恶在这里都得到无限度的放大。  关键词:DNA鉴定、纪实文学、伦理道德  中国人对血缘有着天然的认同和亲近。从三国时期就出现,并在各种影视文学作品中有着感极
期刊
转眼间又迎来开学返校季了,同学们是不是在想开学应该买什么笔记本电脑?纵观当下的笔记本市场,我们强烈推荐大家选择GeForce RTX 30系列笔记本电脑。最近,NVIDIA正在举办一个“高能无限,GeForce RTX笔记本硬核每一面”的返校季促销活动,可以说现在购买GeForce RTX 30系列笔记本电脑正当时。  可能很多人会认为,上班族对笔记本电脑的要求才更高,而学生群体则随便买台笔记本电
期刊
在高通推出骁龙888 Plus旗舰平台后,ROG也立即更新了旗下游戏手机产品——ROG游戏手机5s系列,拥有“大杯”和“超大杯”两款机型。从命名上看,ROG游戏手机5s是ROG游戏手机5的加强版,通过骁龙888 Plus带来更强劲的性能。而ROG游戏手机5s Pro面对的是骨灰级游戏玩家,除了性能提升外,还在个性设计、操控体验等方面进行了强化。话不多说,我们赶紧来看看它会为玩家们带来哪些新奇体验?
期刊
摘要:《回到过去变成猫》是一部兼具穿越叙事特点的动物叙事类优秀网络文学作品,从穿越的独特性、叙述视角的独特性、动物叙事的独特性等三个角度去审视作品,可以获得不同的阅读感受,体味其区别于同类作品的艺术效果。  关键词:陈词懒调 穿越 动物叙事  开创网络文学宠物小说先河的《回到过去变成猫》(以下简称《回猫》)是网络文学知名作家陈词懒调的代表作之一,是一部以猫的视角观察万物,以人的思维考量世界及人心的
期刊