论文部分内容阅读
RISC-V近年来的发展势头不错,其开放、免费的特性吸引了大批企业、研究人员的关注,采用RISC-V架构的产品也逐渐向各个方面延伸。2020年底,一家名为Esperanto的公司公布了一款采用RISC-V架构的超大规模高性能Al芯片,由于其独特的设计和理念,在发布后就引发了业内关注。不过当时并未公布太多信息,直到近期,Esperanto才披露了这款产品在架构、设计以及运行方面的详细信息,值得一看。
目前AI芯片是业内热门的发展方向,考虑到未来AI计算广阔的市场前进,大量企业都希望参与其中。目前设计AI芯片的方法多种多样,比如采用x86架构、ARM架构组建CPU来实现,或者采用自有指令集设计,这些不同的方法拥有各自的优势和不足。Esperanto作为一家初创公司,选择了RISC-V指令集来制造一款全新的AI芯片。不僅如此,这款产品还包含了高达238亿晶体管,以及超过1000个核心,规模之大令人咋舌。ET-SOC-1处理器总览
Esperanto推出的首款处理器全称是“Esperanto Technologies Supercomputer-on-Chip 1”,缩写为“ET-SoC-l”。它定位一款推理加速器,而不是常见的训练加速器。一般来说,神经网络需要在训练完成建立模型后,才交由推理加速器进行推理。在训练阶段需要大量的原始数据、极高的计算能力和较长的训练时间。推理时间则相对短一些,它使用训练模型来完成,因此对计算能力要求不高,但是对延迟很敏感。因此在设计方面,ET-SoC-1需要进行针对性优化。
ET-SoC-1包含了2个类型的核心,一个被称为ET-Minion,是一种顺序执行的小核心,用于处理矩阵乘法、自定义张量计算等。另一个被称为ET-Maxion,是一个较复杂的大内核,能够运行Linux操作系统。在ET-SoC-1中,ET-Maxion被用作控制CPU,ET-Minion则被用作并行数据处理使用。
ET-SoC-1设计了一个6×6网格,一共36个区块,其中2个被用作控制处理器集群和PCle控制器,其余34个全部布局了被称作Minion Shires的ET-Minion处理器集群。1个Minion Shires中包含了总计32个,分为4组的ET-Minion核心,这样它一共拥有1088个(34×32) ET-Minion核心,以及这些核心所拥有的总计136MB L2缓存。实际上ET-SoC-1中还有1个额外的ET-Minion核心用作服务处理器。在控制中心方面,4个ET-Maxion和4MB L2被集成在一个区块上,用于运行操作系统等。此外,ET-SoC-1面向超大规模的数据中心市场,这意味着它也可以和高性能独立处理器一起工作。对一些边缘应用而言,ET-SoC-1配合高性能独立处理器可以发挥更大的作用。加总起来,ET-SoC-1拥有1093个核心。
ET-SoC-1采用了台积电7nm工艺,拥有238亿晶体管。虽无芯片面积和封装尺寸的信息,但根据同类产品进行估计,ET-SoC-1的封装面积可能在350mm2以上,算得上中大型处理器。单个ET-Minion可以在1GHz频率下实现INT8精度的1280PS/周期或者128GOPS算力。用此数据计算的话,在1GHz频率下,所有1088个ET-Minion核心可以输出最多139.3 TOPS算力(INT8)。随着频率提升,ET-SoC-1的算力也会增长,比如在1.5GHz下,ET-SoC-1的算力会提升至208.9TOPS (INT8)。ET-SoC-1支持FP16(半精度)或者FP32的计算,但算力相比INT8低不少。在1GHz时,ET-SoC-1的FP16算力为35TFLOPS,在1.5GHz时会提升至52TFLOPS。
ET-SoC-1使用低功耗的LPDDR4接口进行数据通信和供电,最多支持32GB容量的DRAM,最大带宽可达137GB/s。ET-SoC-1还可以通过PCIe 4.0x8接口和外界连接。ET-SoC-1的典型工作功耗大约在20W,也可以低于它。这么低的功耗是由于芯片的运行频率非常低,只有1GHz~1.5GHz,且整体规模不大,这使得ET-SoC-1符合OCPM.2加速器模块的规格。不过未来ET-SoC-1还可能会衍生出支持PCIe接口,具备更高规格和功耗的产品。深入ET-SoC-1核心架构
接下来让我们深入ET-SoC-1内部,去看看这款RISC-V架构的处理器到底有哪些独特之处。首先是负责控制的ET-Maxion核心的架构设计。
ET-Maxion:性能堪比Cortex-A72的控制核心
ET-Maxion是一个典型的高性能大核心。和之前提到ET-Minion运行在大约1GHz~1.5GHz不同的是,ET-Maxion运行的频率要高一些,超过了2GHz。从设计上来看,ET-Maxion实际上是UC Berkeley Out-of-Order Machine (BOOM)v2 CPU(简写为RISC-V BOOM)的一个分支。它是采用Chisel硬件构建语言编写的一个可合成和可参数化的开源RV64GC RISC-V核心。由于它是开源的,所以厂商可以在开源许可文件的约束下自由使用它,一般人们会利用RSIC-V BOOM构建高性能处理器。Esperanto正是利用RISC-V BOOM构建了ET-Maxion的基本架构。
相比RISC-V BOOM,ET-Maxion在各方面都进行了大刀阔斧的改进,比如ET-Maxion更宽、更长、规模也更大,前端经过了重新设计,执行单元也进行了重制,并加入了分支预测器和预取器,还带来了新的底层缓存和支持ECC的TLB。由于ET-Maxion要面向商业用户,因此还增加了商业级别芯片的调试和性能监控等功能。
在SPEC2006的ISO频率上ET-Maxion的性能略逊于Cortex-A72,但高于Cortex-A57。仅从性能来看,ET-Maxion在RISC-V架构下排名靠前,仅弱于SiFive的P550内核,后者的IPC显著高于ET-Maxion以及Cortex-A72,SPEC2006测试成绩大约有8.65/GHz。 ET-Maxion是典型的10级流水线的乱序执行架构。它的前端是一个4发射结构,每周期能够获取16B的数据,解码后以每周期4条指令的速度将其分派到后端执行部分。整个架构也可以从具有奇偶校验和ECC功能的32KB分块指令缓存中获取指令。Esperanto花了相当大的精力为它设计了先进的条件预测器和拥有2K条目深度,支持BTB、基于路径的间接预测器。最终,ET-Maxion的分支预测器实现了2级预测:高速度且单周期运行、基于BTB的预测执行得到结果后,输入第二级多周期、高精度分支预测器中进一步处理,后者的结果可能会覆盖前者,也可能不会。
ET-Maxion的前端每周期最多可以向调度部分发送4个指令。ET-Maxion使用的是分布式调度器,总容量为64个条目。ET-Maxion的重命名/分配/提交重排序缓冲区的深度为128条目。前端解码后的微指令在这里暂存并进行排序、重命名或者分配处理,等待进入后续的执行单元。
执行单元的分派部分设计非常独特,由1个128条目的整数通用寄存器文件和1个64条目的浮点寄存器实现,整个分派部分每次可以输出5条指令。这5条指令指向后部的4个调度队列,每个调度队列都是16深度的。其中,FPU执行单元拥有1个调度队列,剩余整数部分的复杂ALU、2个简单ALU和AGU各拥有1个调度队列。值得注意的是,2个简单ALU共享一个调度器,另外,复杂ALU还加入了分支预测单元,能够处理部分分支预测操作。所有4个调度队列每周期可以处理5个微指令输出的操作。浮点单元设计为64bit宽度,能够支持RISC-V 32和双精度的RISC-V 64浮点扩展。
Esperanto本来计划选择自定义指令集,但是考虑到通用性、简单性和市场接受度等因素最终选择了RISC-V。Esperanto希望将更多精力花在性能和架构方面的优化上,而不是去解决ISA的问题。Esperanto展示了ET-Maxion的平面图,其中几乎1/3的面积用在缓存和分支预测上。另外占据较大面积的部件包括硬件预取器HPF、FPU浮点单元、LSU、000乱序引擎等。ET-Maxion的硬件预取器选用了更慢但是更准确的版本,反而可以提高性能,将其放置在芯片的顶部以及关键路径的外部,可以简化接线。
ET-Minion:专精于大规模计算的小核心
Esperanto设计了用于大规模并行计算的专用小核心ET-Minion。它和ET-Maxion存在巨大差异,虽然也是一个64位的RISC-V核心,但采用的是顺序执行架构。ET-Minion由于面向吞吐量,因此也采用了多线程的方案,它具有2个可以在停顿时交换的线程。ET-Minion采用标量流水线设计,每个周期获取、解码和发出一条指令,然后进行处理并输出结果。
ET-Minion的主要目的是加速推理计算,针对这个类型的计算,Esperanto为其设计了全新的执行引擎。ET-Minion的后端为矢量密集型,为了节约资源给矢量计算,ET-Minion只設计了一个执行单元来执行RISC-V架构所需的所有必要操作。其余部分包括2个执行管道,1个256bit的浮点矢量单元和1个512bit的整数矢量单元。伴随着这些矢量单元的是2个寄存器,1个32条目的256bit浮点寄存器和1个32条目、256bit的整数寄存器。寄存器对每个线程来说都是重复的,这意味着总计有2个“整数寄存器+浮点寄存器”组,每一组分别服务于一个线程。浮点矢量单元又可以细分为8×32的FMA,每周期可以提供单精度16FLOPs的性能,或者每周期半精度32FLOPs的性能。整数矢量单元的宽度是浮点单元的2倍,又被细分为16×32 TIMA,每周期能够执行128个INT8操作。在工作模式上,FP矢量单元从FP矢量寄存器中读入数据,但是整数矢量单元需要从FP矢量寄存器文件中获得一半的矢量信息(256bit),再和私有整数矢量寄存器中获得的信息组合起来,才能实现整个512bit宽度的寄存器文件。
从整个架构设计来看,Esperanto在ET-Minion中加入了如此强大的浮点计算能力,这还是非常少见的。因为绝大部分类似的产品都只提供INT8操作的能力。虽然对现有的计算来说,INT8其实很多场合下已经足够使用了,但是对那些需要FP16或者FP32的工作负载来说,ET-Minion的确更具优势。
ET-Minion包含一个矢量超越单元。这个单元可以执行超越函数,比如各类三角函数、指数、对数的计算,以加速诸如激活函数等操作。这个超越单元的设计非常有趣,它基于ROM进行,这有助于降低功耗。
除了矢量单元外,ET-Minion还集成了一个矢量超越单元,可以执行超越函数,如各种三角函数、指数和对数,以加快激活函数等。另外,Esperanto在矢量单元的设计上还做了一些独特的操作,除了标准的RISC-V的矢量指令外,Esperanto还加入了2条独特的矢量扩展指令,一个是多周期张量指令,另一个是伴随前者的矢量超越指令。实际上,这两条指令对AI相关的计算是非常重要的,RISC-V和其他指令一样,都对AI计算这种新生事物缺乏支持,原始的指令集也没有集成相关加速的指令,因此厂商在这里添加了自有的指令集,这也是可以理解的。实际上,RISC-C基金会也—直在做类似的操作,比如将自定义扩展植入规范中,以便更多的用户使用。不过这里存在一个知识产权的问题,Esperanto可以宣称这个指令集是自己的知识产权以阻止第三方使用,但是现在Esperanto没有这样做,目前尚不清楚Esperanto对这些私有的指令集的处理方法,如果能够开放给业界使用的话,肯定能在很大程度上推进整个产业的发展。
具体到这两个指令集来看的话,多周期张量指令集的特点是允许内核读取一条指令,通过引入张量定序器状态机(Tensor Sequencer),可以在100多个甚至1000多个周期内重复操作。和大多数定序器一样,ET-Minion为整个前端和其他每一个在张量操作发布和执行时没有被利用的单元设计了门控操作。这使得内核能够进一步削减功耗。 另外还有一点需要提及。ET-Minion的物理设计为了低功耗做出了很多优化。比如为了提高低电压下的频率,ET-Minion的流水线被设计为较少的级数。另外,Esperanto还设计了自己定制的SRAM而不是台积电的标准SRAM。这种定制单元虽然在物理实现上要比台积电的标准单元更大,但是可以在更低的电压下稳定运行,甚至远远低于额定电压。这里的额定电压可能在0.75V左右,但是Esperanto的SRAM可以在0.4V下稳定运行,这又可以节省—大部分功耗。
从核心到区块再到片区:ET-SoC-1的实现方式
ET-SOC-1内拥有大量的核心,那么他们是如何集成和工作的呢?在这里,Esperanto带来了区块和片区的概念。
先来看看区块。以1个ET-Minion为基本单位的话,8个ET-Minion可以被看作是一个区块。在一个区块内,每个内核会竞争性的共享32KB指令缓存。每个周期,一个缓存行数据被发送至2个内核。换句话说,指令缓存在每个周期内轮询一堆内核,将64B的16条指令发送到2个独立的内核,内核对这些信息进行缓冲存储,允许他们在指令缓存转移到其他内核的时候继续运行。
在区块之上是片区。4个区块结合成为1个片区,1个片区拥有32个核心。每个区块通过交叉开关连接到周围的4组L2缓存。1个L2缓存包含4个1MB的SRAM组,可以通过软件配置其为高速缓存或者暂存器访存。在暂存器的配置下,整个缓存将被视作一个很大的地址空间,软件可以使用它精确地访问数据。有趣的是,默认情况下,片区的L2缓存都是私有的,当然也可以配置为跨越整个芯片的最后一级缓存,所有这些功能都以每個缓存Bank的粒度进行配置。比如,一个缓存Bank可以被保留为暂存器,另一个可以用于1MB的片区LCC,另外两个Bank可以配置为2MB的私有L2。每个片区都可以通过网状互联和其他的片区通讯,每个区块都有一个网络接口站点。
最后每个片区都通过网状连接至其他任何区块和芯片上其他任何组件,链接采用的数据位宽可能是1024b。此外,芯片上另一些组件比如内存通道和PCIe接口等,都通过类似的网络连接至整个芯片上,最终组成ET-SoC-1芯片。
最后来看看有关ET-SoC-1芯片的具体产品实现。Esperanto现在推出了名为OCP Glacier Point V2的加速卡,采用OCP M.2加速器模块加速。Esperanto宣称可以最多在OCP Glacier Point V2加速卡上封装6个加速器模块,这样一来,每个OCP Glacier Point V2加速卡将拥有6558个RISC-V内核、192GB的LPDDR4X内存以及822G B/s的DRAM带宽。这个模块的理论峰值速度将达到835.6TOPS (INT8)或者210TFLOPS(FP16)。
写在最后
可以看出,ET-SoC-1是一款面向应用市场推出的产品,其设计和架构都针对应用做出了优化,并且最终的产品实现也非常成熟。同时,ET-SoC-1代表着RISC-V首次同时涉足高性能控制核心和超大规模并行计算。目前ET-SoC-1还处于早期实验和推广阶段,它的理论性能和实际表现究竟如何还不清楚。在今年的HotChip 33上,ET-SoC-1芯片也有更进一步的展示,本刊会继续保持关注,在之后给大家带来更深入的报道。
目前AI芯片是业内热门的发展方向,考虑到未来AI计算广阔的市场前进,大量企业都希望参与其中。目前设计AI芯片的方法多种多样,比如采用x86架构、ARM架构组建CPU来实现,或者采用自有指令集设计,这些不同的方法拥有各自的优势和不足。Esperanto作为一家初创公司,选择了RISC-V指令集来制造一款全新的AI芯片。不僅如此,这款产品还包含了高达238亿晶体管,以及超过1000个核心,规模之大令人咋舌。ET-SOC-1处理器总览
Esperanto推出的首款处理器全称是“Esperanto Technologies Supercomputer-on-Chip 1”,缩写为“ET-SoC-l”。它定位一款推理加速器,而不是常见的训练加速器。一般来说,神经网络需要在训练完成建立模型后,才交由推理加速器进行推理。在训练阶段需要大量的原始数据、极高的计算能力和较长的训练时间。推理时间则相对短一些,它使用训练模型来完成,因此对计算能力要求不高,但是对延迟很敏感。因此在设计方面,ET-SoC-1需要进行针对性优化。
ET-SoC-1包含了2个类型的核心,一个被称为ET-Minion,是一种顺序执行的小核心,用于处理矩阵乘法、自定义张量计算等。另一个被称为ET-Maxion,是一个较复杂的大内核,能够运行Linux操作系统。在ET-SoC-1中,ET-Maxion被用作控制CPU,ET-Minion则被用作并行数据处理使用。
ET-SoC-1设计了一个6×6网格,一共36个区块,其中2个被用作控制处理器集群和PCle控制器,其余34个全部布局了被称作Minion Shires的ET-Minion处理器集群。1个Minion Shires中包含了总计32个,分为4组的ET-Minion核心,这样它一共拥有1088个(34×32) ET-Minion核心,以及这些核心所拥有的总计136MB L2缓存。实际上ET-SoC-1中还有1个额外的ET-Minion核心用作服务处理器。在控制中心方面,4个ET-Maxion和4MB L2被集成在一个区块上,用于运行操作系统等。此外,ET-SoC-1面向超大规模的数据中心市场,这意味着它也可以和高性能独立处理器一起工作。对一些边缘应用而言,ET-SoC-1配合高性能独立处理器可以发挥更大的作用。加总起来,ET-SoC-1拥有1093个核心。
ET-SoC-1采用了台积电7nm工艺,拥有238亿晶体管。虽无芯片面积和封装尺寸的信息,但根据同类产品进行估计,ET-SoC-1的封装面积可能在350mm2以上,算得上中大型处理器。单个ET-Minion可以在1GHz频率下实现INT8精度的1280PS/周期或者128GOPS算力。用此数据计算的话,在1GHz频率下,所有1088个ET-Minion核心可以输出最多139.3 TOPS算力(INT8)。随着频率提升,ET-SoC-1的算力也会增长,比如在1.5GHz下,ET-SoC-1的算力会提升至208.9TOPS (INT8)。ET-SoC-1支持FP16(半精度)或者FP32的计算,但算力相比INT8低不少。在1GHz时,ET-SoC-1的FP16算力为35TFLOPS,在1.5GHz时会提升至52TFLOPS。
ET-SoC-1使用低功耗的LPDDR4接口进行数据通信和供电,最多支持32GB容量的DRAM,最大带宽可达137GB/s。ET-SoC-1还可以通过PCIe 4.0x8接口和外界连接。ET-SoC-1的典型工作功耗大约在20W,也可以低于它。这么低的功耗是由于芯片的运行频率非常低,只有1GHz~1.5GHz,且整体规模不大,这使得ET-SoC-1符合OCPM.2加速器模块的规格。不过未来ET-SoC-1还可能会衍生出支持PCIe接口,具备更高规格和功耗的产品。深入ET-SoC-1核心架构
接下来让我们深入ET-SoC-1内部,去看看这款RISC-V架构的处理器到底有哪些独特之处。首先是负责控制的ET-Maxion核心的架构设计。
ET-Maxion:性能堪比Cortex-A72的控制核心
ET-Maxion是一个典型的高性能大核心。和之前提到ET-Minion运行在大约1GHz~1.5GHz不同的是,ET-Maxion运行的频率要高一些,超过了2GHz。从设计上来看,ET-Maxion实际上是UC Berkeley Out-of-Order Machine (BOOM)v2 CPU(简写为RISC-V BOOM)的一个分支。它是采用Chisel硬件构建语言编写的一个可合成和可参数化的开源RV64GC RISC-V核心。由于它是开源的,所以厂商可以在开源许可文件的约束下自由使用它,一般人们会利用RSIC-V BOOM构建高性能处理器。Esperanto正是利用RISC-V BOOM构建了ET-Maxion的基本架构。
相比RISC-V BOOM,ET-Maxion在各方面都进行了大刀阔斧的改进,比如ET-Maxion更宽、更长、规模也更大,前端经过了重新设计,执行单元也进行了重制,并加入了分支预测器和预取器,还带来了新的底层缓存和支持ECC的TLB。由于ET-Maxion要面向商业用户,因此还增加了商业级别芯片的调试和性能监控等功能。
在SPEC2006的ISO频率上ET-Maxion的性能略逊于Cortex-A72,但高于Cortex-A57。仅从性能来看,ET-Maxion在RISC-V架构下排名靠前,仅弱于SiFive的P550内核,后者的IPC显著高于ET-Maxion以及Cortex-A72,SPEC2006测试成绩大约有8.65/GHz。 ET-Maxion是典型的10级流水线的乱序执行架构。它的前端是一个4发射结构,每周期能够获取16B的数据,解码后以每周期4条指令的速度将其分派到后端执行部分。整个架构也可以从具有奇偶校验和ECC功能的32KB分块指令缓存中获取指令。Esperanto花了相当大的精力为它设计了先进的条件预测器和拥有2K条目深度,支持BTB、基于路径的间接预测器。最终,ET-Maxion的分支预测器实现了2级预测:高速度且单周期运行、基于BTB的预测执行得到结果后,输入第二级多周期、高精度分支预测器中进一步处理,后者的结果可能会覆盖前者,也可能不会。
ET-Maxion的前端每周期最多可以向调度部分发送4个指令。ET-Maxion使用的是分布式调度器,总容量为64个条目。ET-Maxion的重命名/分配/提交重排序缓冲区的深度为128条目。前端解码后的微指令在这里暂存并进行排序、重命名或者分配处理,等待进入后续的执行单元。
执行单元的分派部分设计非常独特,由1个128条目的整数通用寄存器文件和1个64条目的浮点寄存器实现,整个分派部分每次可以输出5条指令。这5条指令指向后部的4个调度队列,每个调度队列都是16深度的。其中,FPU执行单元拥有1个调度队列,剩余整数部分的复杂ALU、2个简单ALU和AGU各拥有1个调度队列。值得注意的是,2个简单ALU共享一个调度器,另外,复杂ALU还加入了分支预测单元,能够处理部分分支预测操作。所有4个调度队列每周期可以处理5个微指令输出的操作。浮点单元设计为64bit宽度,能够支持RISC-V 32和双精度的RISC-V 64浮点扩展。
Esperanto本来计划选择自定义指令集,但是考虑到通用性、简单性和市场接受度等因素最终选择了RISC-V。Esperanto希望将更多精力花在性能和架构方面的优化上,而不是去解决ISA的问题。Esperanto展示了ET-Maxion的平面图,其中几乎1/3的面积用在缓存和分支预测上。另外占据较大面积的部件包括硬件预取器HPF、FPU浮点单元、LSU、000乱序引擎等。ET-Maxion的硬件预取器选用了更慢但是更准确的版本,反而可以提高性能,将其放置在芯片的顶部以及关键路径的外部,可以简化接线。
ET-Minion:专精于大规模计算的小核心
Esperanto设计了用于大规模并行计算的专用小核心ET-Minion。它和ET-Maxion存在巨大差异,虽然也是一个64位的RISC-V核心,但采用的是顺序执行架构。ET-Minion由于面向吞吐量,因此也采用了多线程的方案,它具有2个可以在停顿时交换的线程。ET-Minion采用标量流水线设计,每个周期获取、解码和发出一条指令,然后进行处理并输出结果。
ET-Minion的主要目的是加速推理计算,针对这个类型的计算,Esperanto为其设计了全新的执行引擎。ET-Minion的后端为矢量密集型,为了节约资源给矢量计算,ET-Minion只設计了一个执行单元来执行RISC-V架构所需的所有必要操作。其余部分包括2个执行管道,1个256bit的浮点矢量单元和1个512bit的整数矢量单元。伴随着这些矢量单元的是2个寄存器,1个32条目的256bit浮点寄存器和1个32条目、256bit的整数寄存器。寄存器对每个线程来说都是重复的,这意味着总计有2个“整数寄存器+浮点寄存器”组,每一组分别服务于一个线程。浮点矢量单元又可以细分为8×32的FMA,每周期可以提供单精度16FLOPs的性能,或者每周期半精度32FLOPs的性能。整数矢量单元的宽度是浮点单元的2倍,又被细分为16×32 TIMA,每周期能够执行128个INT8操作。在工作模式上,FP矢量单元从FP矢量寄存器中读入数据,但是整数矢量单元需要从FP矢量寄存器文件中获得一半的矢量信息(256bit),再和私有整数矢量寄存器中获得的信息组合起来,才能实现整个512bit宽度的寄存器文件。
从整个架构设计来看,Esperanto在ET-Minion中加入了如此强大的浮点计算能力,这还是非常少见的。因为绝大部分类似的产品都只提供INT8操作的能力。虽然对现有的计算来说,INT8其实很多场合下已经足够使用了,但是对那些需要FP16或者FP32的工作负载来说,ET-Minion的确更具优势。
ET-Minion包含一个矢量超越单元。这个单元可以执行超越函数,比如各类三角函数、指数、对数的计算,以加速诸如激活函数等操作。这个超越单元的设计非常有趣,它基于ROM进行,这有助于降低功耗。
除了矢量单元外,ET-Minion还集成了一个矢量超越单元,可以执行超越函数,如各种三角函数、指数和对数,以加快激活函数等。另外,Esperanto在矢量单元的设计上还做了一些独特的操作,除了标准的RISC-V的矢量指令外,Esperanto还加入了2条独特的矢量扩展指令,一个是多周期张量指令,另一个是伴随前者的矢量超越指令。实际上,这两条指令对AI相关的计算是非常重要的,RISC-V和其他指令一样,都对AI计算这种新生事物缺乏支持,原始的指令集也没有集成相关加速的指令,因此厂商在这里添加了自有的指令集,这也是可以理解的。实际上,RISC-C基金会也—直在做类似的操作,比如将自定义扩展植入规范中,以便更多的用户使用。不过这里存在一个知识产权的问题,Esperanto可以宣称这个指令集是自己的知识产权以阻止第三方使用,但是现在Esperanto没有这样做,目前尚不清楚Esperanto对这些私有的指令集的处理方法,如果能够开放给业界使用的话,肯定能在很大程度上推进整个产业的发展。
具体到这两个指令集来看的话,多周期张量指令集的特点是允许内核读取一条指令,通过引入张量定序器状态机(Tensor Sequencer),可以在100多个甚至1000多个周期内重复操作。和大多数定序器一样,ET-Minion为整个前端和其他每一个在张量操作发布和执行时没有被利用的单元设计了门控操作。这使得内核能够进一步削减功耗。 另外还有一点需要提及。ET-Minion的物理设计为了低功耗做出了很多优化。比如为了提高低电压下的频率,ET-Minion的流水线被设计为较少的级数。另外,Esperanto还设计了自己定制的SRAM而不是台积电的标准SRAM。这种定制单元虽然在物理实现上要比台积电的标准单元更大,但是可以在更低的电压下稳定运行,甚至远远低于额定电压。这里的额定电压可能在0.75V左右,但是Esperanto的SRAM可以在0.4V下稳定运行,这又可以节省—大部分功耗。
从核心到区块再到片区:ET-SoC-1的实现方式
ET-SOC-1内拥有大量的核心,那么他们是如何集成和工作的呢?在这里,Esperanto带来了区块和片区的概念。
先来看看区块。以1个ET-Minion为基本单位的话,8个ET-Minion可以被看作是一个区块。在一个区块内,每个内核会竞争性的共享32KB指令缓存。每个周期,一个缓存行数据被发送至2个内核。换句话说,指令缓存在每个周期内轮询一堆内核,将64B的16条指令发送到2个独立的内核,内核对这些信息进行缓冲存储,允许他们在指令缓存转移到其他内核的时候继续运行。
在区块之上是片区。4个区块结合成为1个片区,1个片区拥有32个核心。每个区块通过交叉开关连接到周围的4组L2缓存。1个L2缓存包含4个1MB的SRAM组,可以通过软件配置其为高速缓存或者暂存器访存。在暂存器的配置下,整个缓存将被视作一个很大的地址空间,软件可以使用它精确地访问数据。有趣的是,默认情况下,片区的L2缓存都是私有的,当然也可以配置为跨越整个芯片的最后一级缓存,所有这些功能都以每個缓存Bank的粒度进行配置。比如,一个缓存Bank可以被保留为暂存器,另一个可以用于1MB的片区LCC,另外两个Bank可以配置为2MB的私有L2。每个片区都可以通过网状互联和其他的片区通讯,每个区块都有一个网络接口站点。
最后每个片区都通过网状连接至其他任何区块和芯片上其他任何组件,链接采用的数据位宽可能是1024b。此外,芯片上另一些组件比如内存通道和PCIe接口等,都通过类似的网络连接至整个芯片上,最终组成ET-SoC-1芯片。
最后来看看有关ET-SoC-1芯片的具体产品实现。Esperanto现在推出了名为OCP Glacier Point V2的加速卡,采用OCP M.2加速器模块加速。Esperanto宣称可以最多在OCP Glacier Point V2加速卡上封装6个加速器模块,这样一来,每个OCP Glacier Point V2加速卡将拥有6558个RISC-V内核、192GB的LPDDR4X内存以及822G B/s的DRAM带宽。这个模块的理论峰值速度将达到835.6TOPS (INT8)或者210TFLOPS(FP16)。
写在最后
可以看出,ET-SoC-1是一款面向应用市场推出的产品,其设计和架构都针对应用做出了优化,并且最终的产品实现也非常成熟。同时,ET-SoC-1代表着RISC-V首次同时涉足高性能控制核心和超大规模并行计算。目前ET-SoC-1还处于早期实验和推广阶段,它的理论性能和实际表现究竟如何还不清楚。在今年的HotChip 33上,ET-SoC-1芯片也有更进一步的展示,本刊会继续保持关注,在之后给大家带来更深入的报道。