探秘Intel80核处理器

来源 :电子产品世界 | 被引量 : 0次 | 上传用户:tireda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  如今多核已不算是什么新鲜的词汇,甚至很多人对多核技术感到厌烦——因为已经看得多了。而在各种文献和媒体中,常常会看到关于多核处理器缺乏相应的软件的评论与报道,这些评论与报道来自专家、媒体甚至是芯片设计者本身。
  多核芯片往往如潮水般来去匆匆,过去人们为多核芯片感到兴奋与激动,点燃着瞬间激情,可是又像黑夜中的烟花那样空留绚丽的色彩后就归于寂静。
  这次却不同了,在今年的ISSCC(国际固态电子电路会议)上,Intel展示了80核Tera-Scale研究芯片。留意一下Intel所用的词汇,“Tera-Scale”的定义可将其从能够把TRP(TeraFLOPS Research Processor)从其他的双核、四核等处理器区分开。虽然按照Intel的定义,“Tera-Scale”只是多核处理器的一个系列,但却是下一代多核架构。Intel指出,“它将带我们进入TeraFLOP(每秒兆兆级浮点运算)和兆兆位处理能力的全新领域中。”
  
  Intel的战略:多核原理
  
  长久以来,将理想化的工程与商业战略分离并且使其获得成功,是非常困难的。Intel一直致力于在性能开发上做执牛耳者。从用户的角度上来讲,在挑选台式机和笔记本这样的产品时,性能是首要考虑的因素。处理器的性能与其内部时钟频率息息相关,可是高频和高功耗产生的漏电,将会导致高温。Intel将在45nm工艺中采用high-k(高介电率)绝缘体技术。借助于metal gate(金属栅极技术),Intel希望其能够全面改善芯片漏电情况若,若漏电降为原先的十分之一,则性能可提高20%。同时,由于45nm的低寄生效应,晶体管开关功耗也会降低百分之三十。为了更好地理解IntelTRP芯片的基本原理,这里对high-k和45nm硅技术结合的效益进行一个估算。粗略算来,我们假设high-k45nm技术使芯片的功率降低到先前半导体工艺的二分之一,在同样峰值包络功率下,新的功率存储使得VDD电压值高出了大约1.4倍(也就是2的平方根),由于VDD和频率范围可被近似为呈线性变化,包括20%金属栅极晶体管开关效应引起的频率增长在内,频率提高1.7倍。在此,我们忽略了频率限制因素,比如时钟分布,晶圆内部与晶圆之间的差异等等。high-k绝缘体技术能给单核或多核芯片提供可观的短期成果。而对于长期投资来说,依据摩尔定律的优势,Intel已经在多芯体系的道路上领跑了2~3年,在世界上,当频率,功率和通信等重要角色发生变化,如何为用户设计一个多核平台?如果只是一个模拟平台,那么如何在大负荷工作量中快速地执行程序来获得结果?Intel没有选择的余地,只有为研究人员量身设计芯片。在国际固态电路大会上展示了Intel65nm技术中的8层金属设计初衷,是用来“证明100W以下的TeraFLOP性能”,尽管这只是其功能之一。
  
  一个芯片,更是一个系统
  
  把单处理器的速率与主体内存匹配起来是一件很难的事情,如果传统的单核处理器是通过高速缓冲存储器(cache)来解决CPU和内存之间的速度差异的话,如今的多核处理器由于需要通过核与核之间的合作来实现数据共享,因此复杂性大大增加。和单核处理器相比,多核处理器同样表现出对于任务程序以及数据局部性的依赖,以及数据可执行代码的数据共享特性。Intel的架构师们致力于研究用户芯片的核内存,核间通信以及工作量类型,但是和他们的前人一样,还是无法确定一个严密又明确的工作量。
  可以理解,Intel仍然无法为未来的Tera-Scale(兆兆规模)芯片下一个明确的定义,毕竟,目前这只是一个研究型的项目。然而软件和系统的开发者们却被鼓励着继续完成这个体系。那么Intel团队在开发的时候,他们对于体系的定义又是什么呢?有一点可以肯定,TRP不会采用80核技术,80是一个不可思议的数字,虽然80核芯片的晶圆尺寸较好地平衡了可用晶圆空间以及能效(<100W@ITF)。
  第一个另人感兴趣的地方是Intel采用的平铺式“瓷片”(tile)结构(图1),小的内核像“瓷片”一样重复地平铺开来,每个“瓷片”内都包含自己的处理引擎(Processing Engine,简称PE),局部内存和通信路由,如同台式机和服务器的网络连接一样,每个瓷片使用自身的路由成为芯片网状配置的一部分。
  在Intel所选择的这种结构中,芯片能方便地检测出内含单元数,不同的“瓷片”数目决定了不同的功能应用和价位。传输延时,时钟分布,功率减少和部分功率管理等只要对一个“瓷片”进行了优化处理,对于整个芯片也将行之有效。此外,大型芯片两个边缘上的瓷片之间通过路由网络进行通信,因此不用担心由于电磁在硅中的传播速度限制0.8c(c是光在真空中的传播速度)从而影响了通信同步。根据Intel表示,渡越时间(the time of flight)(在一个时钟周期内)不会成为问题所在。因为“瓷片”的路由通信方式能够很好地得到管理从而具有冗余以及高可靠性。“瓷片”架构的任务一旦完成编译,将在虚拟处理器上进行执行,把“瓷片”当作内存管理模块来处理,提高了物理内存资源的系统可用性。因此“瓷片”的高利用率提高了性能,较少的“瓷片”不需要再编译,多个线程能够在同一芯片中同时运行。
  Intel的这种结构体系,提供了一个研究通用处理器软件和芯片性能的机会,Intel或许会将研究成果用来连接IA架构和NoC(片上网络),而这也许就是未来的服务器。


  路由和每个“瓷片”结为一体,能够实现可避免死锁的双32位带宽的逻辑通道以及非阻塞交叉开关(non-blocking crossbar);当时钟频率为4GHz时,带宽可达到80GB/s。然而,在访问周期内,有效的通道对象用来完成数据传输。由于双通道采取用double pumped(两倍汞,指时钟频率能执行两次操作,上升沿和下降沿同时传输信号)来节省芯片内部空间,但是也带来了一些新的问题。从表面上看,这种方法带来了额外的功耗,但当它被切断时,两倍泵只会对路由产生局部影响。不过doublepumped的采用会使时钟负载增加。Intel的分析报告指出,在最坏的状况下,交叉区域的50%就会用于补偿全局时钟负载和数据通道的RC效应。通道采用16x6位的缓冲队列管理和基于Intel FLIT(流程控制单元)的32位数据字(参照图2)。流程控制逻辑依照FLIT的要求来解码。
  软件和硬件工作可以用Intel的NoC(片上网络)封装形式来划分。它定义了三种可能的32位字——其中包括了路由信息,基本处理单 元控制和数据。其中的每一部分开头都包含6位控制字段。该字段包括两个通道的流程控制(FC),通道ID(L),FLIT有效位(V)以及位标志,用来指示控制字段位于数据包的头部还是尾部。链表头明确定义了路由能够保持10个3位地址指向8个相邻PE,这里假定为北,东北,东,东南,南,西南,西和西北(N,NE,E,SE,S,SW,W,NW),若添加第二个链表地址FLIT,那么任意一个PE就能直接寻址其他10个以上的PE。我们注意到,软件设计中定义了在不互相冲突的情况下,最优的连接路线和通道,软件必须能够利用硬件来支持动态路由和PE通道分配,不同的线程在不同时间能够同步执行,或者在不同的芯片内能够照常运行,或者只是在有问题的PE周围标记,即便是对静态路由而言,这也是一个艰巨的任务。
  6位控制字段包含一类或两类32位数据:一个32位信息控制字段用于PE定位和32位数据字传输。控制字段能够请求多种行为,比如发送原始PE数据到外部内存,或是将目标PE改变为睡眠状态或是唤醒。PE通过开关晶体管完成电源切换,由于可在数周期之内完成,因此优于用开关把电源打开和关掉的方法。让此类电路有4GHz的时钟频率着实是一项挑战。
  
  同步接口与光速


  
  在设计中整合了轮循仲裁,但其中不包含可能增加复杂性的优先处理机制。此部分任务将留给软件完成,从而确保在对处理器中关键数据进行访问时,只能就近映射。轮循仲裁使用未决的FLIT信息,用于在数据传输之前,于源和目的之间建立一个完整的路径。
  同步接口是“瓷片”体系有效利用并得以大规模结合的关键技术。考虑到功率、电压、温度,大型芯片处理差异以及硅中电磁传播的极限速度,要想同步时钟几乎不可能。假设硅中电磁传播的速度接近于0.8c(0.8×3×lO2m/s),我们发现lmm的传播时间是4ps,那么25mm(接近于TRP的21.72mm)用时100ps。4GHz频率周期是250ps。路由使用固定的频率,相移容差同步接口通过四层的38位带宽的FIFO进行同步(如图3)。
  若接口所有的逻辑块与寄存器块被相同的频率同步,而不是被相同的相位同步时,同步接口可以用来补偿未知的相位差。由于在可能触发亚稳态的时间内,目标寄存器正进行逻辑层的转变,所以均步的同步器(mesochronous synchronizer)可以提供一个避免数据传输衰减的解决方案。在亚稳态中,超越时钟界限的概率大大降低。图3是一个四路HFO,作为接口的一部分,它被用做亚稳态监测器。原则上讲,电路必须要有一个扫描寄存器用来编程延时线以优化性能:一个周期或半周期内的最小延时用来消除亚稳状态。Intel工程师们采取扫描的方式,亚稳态可通过HFO某位上出现不同数据这一特征来识别。根据这点,固定的始终频率在理论上仅仅需要一个亚稳态同步,事实上,由于温度,电压或不同工作的电效应,需要一个再同步过程。在现有的规范中,还不支持中断的使用。
  在保持亚稳态接口完整时,同比缩放频率和VDD电压非常困难,除非大部分的设备规模化。在一个分布式路由体系中,不妨碍周围处理器通信的接口非常少。设计者把合理的门控时钟、NMOS休眠晶体管和偏置电路添加在低漏电晶体管中。
  
  起步
  
  TRP芯片用于科研的可行性只是一个开始,许多Intel的工程师以及科研院所希望将该芯片用于软件工具的研发,而软件工具正是使多核架构得到利用的最重要的一个方面。
  我们要了解它的某些关键属性,因为这反映了设计者的一些思想。PE包含了两个独立的九级高速流水线单精度浮点单元,允许在每个周期内接受新数据和指令。在每个周期里,高性能的处理器会从本地32位寄存器中读出操作数,或从2KB的数据内存中读取64位数据,在3KB单周期指令内存中有效地执行指令。对于能够在4GHz或者更高频率上执行的PE来说,指令和本地数据内存相对来说较小。
  Intel对内存和路由的应用能使我们了解到CPU在图形和A/V域程序中的常规运算。同理,每个“瓷片”将更多地依赖于三维内存。事实上,连接3D内存的路由,较小的本地内存和。瓷片以及为了内存资源各个“瓷片”互联的可能性,预示着出现一种“瓷片”指向的3D内存结构。它能够给用户提供高速的数据访问,从而与小的本地内存相互匹配。它还能够与周边单元共享,实现快速访问和共享操作数。对最佳应用性能的探究正在孜孜不倦地进行着,Intel展示了面向80核单元的接口,能够不断监视各类参数比如,“瓷片”活跃度,性能,还能间接监视功耗。
  连接到80核芯片连接板上,控制和监视面板能使开发者自定义频率和电压条件值,执行自检,读取万亿级FLOPS运行估算值以及PE与路由的可视化监视。
  为什么这个芯片工作在100W以下却仍有万亿级FLOPS的性能呢?我们能够窥出一些端倪,首先是它本身的并行结构,其次是在同步时钟至少要5GHz的基础上,同步接口把全局时钟分布功率减少了大约2W(整体的2%)~5W;还有对低漏电晶体管,偏置电路,门控时钟和休眠晶体管的使用;给每个PE分配的小型内存等等。网络路由的能耗占整个“瓷片”网络能耗的39%。
  Intel80核万亿级处理器不是为了能够迅速转化为产品,这只是一个试验项目。通过TRP项目的启发,有助于开发图形加速器或将超级计算机延伸至IA处理器。那么这个研究是否对协处理器接口或是内存映射工程有所帮助?是否揭示了如何互连IA处理器中大规模使用的“瓷片”?一条来自Intel德国研发中心的信息或许能展示Intel在万亿级计算机技术研究上的进展程度。在德国,Intel正在研究一种面向未来的万亿级系统,由高速FPGA环绕的IA处理器构成,它很好地兼顾了实体系统硬件运行和软件应用,从而获得可观的成果。
  德国研发的系统(参见图5)关键特性是全程IA-32研发芯片和大量的FPGA,通过程序,设计者新的思想必须要经过软硬件联调测试。
  研发的目的是给未来的芯片,容错系统,多媒体扩展和加速,以及计算机安全性扩展定义微体系结构。
  对TRP研发的目的不仅仅是证明Intel有开发至少100W的万亿级FLOPS处理器的能力。Intel正在探寻网状结构,瓷片模式和细晶粒功率管理模式。至少,这些都是为继续致力于开发高性能高效率处理器积攒宝贵的经验。
  Intel万亿级研究工程的初步报告一定程度上展示了Intel在万亿级结构体系研发上的一些努力。当然,这只是冰山一角。
其他文献
摘要:本文讨论了UCSP封装的功率耗散能力和其相对于其他封装是如何限制输出功率的。  关键词:UCSP封装;功率耗散    UCSP封装    UCSP(晶片级封装)是一种封装技术,它消除了传统的密封集成电路㈣的塑料封装,直接将硅片焊接到PCB上,节省了PCB空间。但也牺牲了传统封装的一些优点,尤其是散热能力。  大多数音频放大器的封装都带有一个裸露焊盘,使IC底层直接连接到散热器或PCB地层。这
期刊
摘要:详细阐述实现载波抄表采集器硬件电路与软件设计的具体方案,其中着重分析载波通信设计思路。  关键词:采集器;PL3105;载波通信    引言    随着低压电力载波技术的飞速发展,使载波通信技术的实际应用变为现实。电力部门及时地把这项科技进步成果应用于抄表工作当中,将传统的人工现场抄表方式改为自动远程抄表方式。为了实现这种转变,需要配备自动远程抄表系统,一种方案是把用户正在使用的电子式电能表
期刊
对于中国的电子产业来说,最务实的发展不外乎大量优秀本土IC设计公司的成长与壮大。然而,目前国内大多数IC设计公司还没有走出襁褓,依然缺乏足够顽强的生命力,并非许多IC设计公司的技术不够先进,更重要的是没有找到适合自己的市场切入点。  雄心壮志,每个创业者总是为自己的未来勾画了美好的蓝图,但如何一步一步拥抱梦想却难住了大多数人。许多IC设计创业者总是希望能用最先进的芯片快速占领市场,殊不知走进了一条
期刊
摘要:本文分无源和有源抗混叠滤波电路两种情况,分析高速高精度数据采集系统对放大器驱动能力的要求,指出习惯上的无源抗混叠滤波器已难以满足精度要求和对放大器容性负载的驱动能力过于苛刻,有源抗混叠滤波器能够较好地满足驱动要求,但对放大器仍有较高的要求。  关键词:放大器;ADC;驱动;抗混叠滤波器    前言    在数据采集过程中,不可避免地会有高频干扰信号的存在。当这些信号的频率超过纳奎斯特频率时,
期刊
飞兆庆祝始创50周年及新创10周年    飞兆半导体公司(Fairchild Semiconduc-tor)近日在上海庆祝公司始创50周年。1958年,飞兆开发出了平面晶体管,从此开创出一个崭新的行业,获誉“硅谷之父”。今年也是新的飞兆半导体成立暨进入中国市场10周年。通过在功率效率和能源效率方面坚持不懈的努力,2006年飞兆在中国的销售额增长到4.56亿美元。此外,在贴近客户的全球功率资源中心和
期刊
如今,系统对于电源性能、效率以及可靠性等方面的要求不断提升,系统厂商亦不断寻求管理多种电源相位的新方法,以针对系统变化迅速做出反应。为应对各种新的挑战,德州仪器(TI)发布了第三代数字电源控制产品UCD9240。UCD9240可控制多达8个功率级与4个电压反馈回路。此外,UCD9240采用250皮秒分辨率的数字脉宽调制(PWM)技术,并可通过图形用户接口(GUI)进行全面配置,实现对DC/DC负载
期刊
车模与赛道的参数如图l所示。车模运行的主要形式主要是车模的规定的赛道内行进,赛道中央有一条25mm宽的黑色引导线。  常用的车模巡线方案有光电传感器阵列和CCD探测法等,这里介绍光电传感器阵列的设计方案。光电传感器是靠红外发射管和红外接收管组成的传感器,如图2所示。  红外发射管发射的红外线具有一定的方向性,当红外线照射到白色表面上时会有较大的反射,如果距离D1取值合适,红外接收管可接收到反射回的
期刊
飞思卡尔半导体在微机电系统(MEMS)传感器设备设计制造领域具有全球领先的地位,通过推出高灵敏度的XYZ三轴加速计,满足当今智能移动设备领域日益增长的移动感应需求。从MP3播放器到PDA,再到超小的笔记本电脑,如今的消费者正在越来越多地通过其使用的便携式电子设备的种类以及对这些设备的定制方式来彰显自己的个性。便携式设备的设计人员也在不断寻找新途径,以便在不增加设备尺寸的情况下,让产品具有更大的显示
期刊
3重播放是传送到住宅的话音、视频和数据,第4重播放是移动。在今年年初美国Electronic Summit2007上,来自MEMS(微机电系统)、内存、可配置的处理器IP(知识产权)、家庭数据传输的公司济济一堂,探讨了4重播放的未来。    市场    主持人:In-stat首席分析师Gorry Kauthold:推动4重播放出现的内容大致可以分为3类:  电视网络和好莱坞制片厂出品的专业内容; 
期刊
今天,半导体行业正在发生急剧而重大的变化。例如,今年1月,NXP(前Philips半导体)宣布退出Crolles 2的开发,转而依靠与TSMC(台积电)的合作来推进工艺开发;集设计、制造一体化的集成器件制造商(IDM)-TI也改变了初衷,宣布到45nm时,数字CMOS将走fab-lite(轻晶圆厂)道路;Freescale宣布改投IBM阵营……如果大厂商们不去开发自己的工艺技术,那又如何使自己产品
期刊