论文部分内容阅读
长期以来,我们都习惯于将CPU作为整个计算机系统内唯一的中央处理单元。不过,CPU的“绝对核心”时代也许将在不久之后结束,而我们迎来的将是一种更加自由灵活的新型计算机构架——Torrenza。
众所周知,对于现有的计算机系统而言,CPU就是“大脑”,其核心地位似乎不容置疑,不过实际情况正在悄然改变。针对大量复杂的物理运算,CPU已经显得力不从心,于是专用的物理处理器和显卡的物理引擎开始从CPU那里接过物理运算任务,这样才能在《Crysis》等新一代游戏中实现高度互动的物理环境。而目前研究正盛的GPGPU(通用GPU)也将矛头直指CPU——由于现有CPU的浮点运算能力低下,并非是科学计算、医疗等领域的最佳选择,而擅长浮点运算的GPU经过一定的改造就能用于通用计算,其性能/功耗比大大优于CPU。可见,在很多特定的用途上,越来越多的专业芯片正在取代CPU的位置。
当然,面对专业化运算的发展趋势,CPU自身的设计也在发生着改变。使用在PS3游戏主机中的Cell处理器就集成了SPE协处理器以增强浮点运算能力;英特尔刚刚发布的80核心Tera-Scale处理器也有异曲同工之妙,其内部集成的核心可以按照需求更换为专业处理单元,女HGPU、DSP或物理处理单元等等。这些新型CPU可以将各种可编程处理单元集成在一颗芯片中,能够适应更多的专业应用环境,不过它们的一大缺点是:其架构都是封闭式的,用户只能在购买时选择针对特定用途的新型CPU,之后就无法随意更改其协处理器的配置。
作为“英特尔追赶者”的角色,AMD常常用更加开放、更加灵活的产品设计来吸引市场,这次也不例外。AMD针对计算机系统结构提出了Torrenza架构,这种开放式的架构能让用户以芯片或板卡的形式在主板上自行添加协处理器。或许再过几年,当你攒机买主板的时候,考虑的并不是PCI-E插槽的数量是否足够安装各种显卡、声卡和电视卡,而是仔细盘算主板上CPU插座和HTX插槽(HyperTransport 3.0总线的外接形式)的数量,因为它们决定了今后PC的升级能力——能安装多少个专业的协处理器。
细数Torrenza的关键技术
1 直连技术从Athlon 64开始
如果你正在使用AMD的Athlon 64系列CPU的话,那么恭喜你已经开始“体验”Torrenza架构了,因为Athlon 64系列处理器(特别是双核处理器)所使用的直连技术就是未来Torrenza架构众多技术中一项。
所谓的直连技术,就是让多核CPU的各个核心之间、CPU与CPU之间、CPU与协处理器之间以及CPU和内存之间都通过HyperTransport总线相连接。相对来说,在英特尔现有的多路处理器系统中,CPU之间并未直接相连,而是连接在前端总线上,CPU之间交换数据时必须通过前端总线中转,这可能会造成数据的拥堵。在目前AMD的多路处理器系统中,所有的CPU都是通过独立的HyperTransport总线连接在一起,它们之间可以相互直接通信,不会对其它CPU的数据传输造成影响。
这种一对一的通信方式非常迅速高效,在不久的将来,这项技术还会应用到协处理器上。它让协处理器在工作的时候,相互之间的通信延迟更小,多个协处理器之间协同工作时也不会遇到总线拥堵的情况。现在AMD在Athlon 64以及Opteron处理器上使用的HyperTransport 1.0总线还略带有一些试验和试探的性质,在未来的K10处理器和Torrenza架构上使用的则是其3.0版本,总线带宽将从1.0版本的11.2GB/s提升到41.6GB/s,以满足多核处理器和协处理器的数据传输需求。
2 协处理器也集成内存控制器
我们知道,Athlon 64系统处理器的一大特色是集成了内存控制器,这让CPU在与内存进行数据交换时不必再通过北桥芯片,大大降低了延迟,提高了性能。在Torrenza架构中,不仅仅是CPU,其它协处理器也将会集成内存控制器。作为“协助者”,以往协处理器在访问内存时必须通过CPU进行请求,今后协处理器将能直接与内存进行通信,看上去就像是额外的“CPU”一样。
3 HTX接口造就开放式架构
如前面所介绍的,Torrenza构架的核心应用是在系统中挂接基于HyperTransport 3.0总线的浮点协处理器、物理协处理器、视频解码器、专门针对Java程序的硬件解释器等各种专业的协处理器。对于挂接的方式,AMD提供了两种完全不同的解决方案。一种是通过现有的CPU插座的方式直接安装协处理器到主板上,另一种便是利用HTX插槽,以协处理器板卡的形式插在主板上。
HTX插槽基于HyperTransport 3.0总线,带宽高达41.6GB/s;而现在的PCI-E1.0总线的带宽仅为8.0GB/s,即使下一代PCI-E 2.0总线的带宽也不过16GB/s,远不及HyperTransport 3.0总线。因此从这一点上来看,HTX插槽足够应付各种专业协处理器和显卡的带宽需求。同时,Torrenza是一个开放式架构,不同的协处理器制造商都能使用HTX接口,让自己的产品与Torrenza架构实现兼容。此外,支持热插拔也是HTX的一大亮点,例如你可以在不关机状态下直接安装或者升级协处理器,而不必担心正在执行的计算任务被迫中断,今后安装/卸除协处理器就像使用USB设备一样简单!
4 部署专业的协处理器
在协处理器方面,AMD一直在强调GPU比传统的CPU更加适合处理特殊的运算。在过去的十几年中,GPU已经从一个相对简单的、仅有固定功能的标准处理芯片变成了一个可以做海量计算的、可编程的庞然大物。现在GPU不但可以加速高清视频、物理运算,还能进行各种通用计算。为了让GPU在更广阔的领域得到应用,AMD正在开发流处理器,NVIDIA也在进行CUDA研究计划(研究GPU的通用计算)。
AMD最近发布了使用GPU运算的Folding@home的Beta版,它可以让你的Radeon X1600级别以上的显卡参加到这个全球性的分布式计算中来。你可以很明显地发现,GPU在Folding@home项目中的计算效率要远远高于传统的CPU,仅仅2344颗GPU就提供了比217103颗CPU(高效的Linux的平台下)更高的计算能力,这种效率甚至比采用Cell处理器的PS3还要高(笔者的AMD爱好者网(www.amdfami.com)也在参与这个项目,希望有Radeon X1600以上显卡的朋友加入进来,一起为科学计算做贡献,我们的“Team No.”是60458)。这种通用GPUiE是Torrenza架 构计划的一部分,它将大大增强Torrenza架构在科学计算等专业领域的吸引力。
5 OpenFPGA助力
FPGA(field-programmable gate array)即现场可编程门阵列,是在PAL、GAL、EPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。它的逻辑部件可以通过编程来实现电子元件中的逻辑门(与、或、非、异或门)的功能,也可以实现更复杂的功能,如解码、简单的数学公式运算等等,相当灵活自由。
OpenFPGA(开放式的FPGA)可以让用户随时通过对关键逻辑门的硬件编程来满足不同任务的需求。这与把GPU改造为通用GPU类似,只不过通用GPU主要依靠软件来实现,而OpenFPGA则是在芯片的硬件结构上做文章。OpenFPGA意味着更多的芯片制造商可以针对特殊领域生产专业芯片,作为协处理器的一种补充应用在Torrenza上。
Torrenza面临的竞争
在这种新型的协处理器架构方面,英特尔同样也进行着研究。遗憾的是,目前我们还没有得到整个项目的确切消息,但我们知道在架构的总线连接方式上,英特尔同时准备了两种方案(当然不会是HyperTransport 3.0总线)。其一是基于PCI-E总线的新型总线(项目代号Geneseo),与HTX插槽类似,它也可以用扩展卡的方式来安装协处理器。Geneseo是英特尔与IBM合作开发的项目,将替代目前即将出炉的PCI-E 2.0总线,以提供更快的速率和更小的延迟。另一个项目则被称为CSI总线,对此官方还没有透露更多的消息。
我们知道,无论是迅驰平台还是欢跃平台,英特尔采用的都是封闭式架构,这让第三方厂商很难参与其中,自然利润也大多落到了英特尔手中。不过AMD的开放式架构能给第三方厂商以更多的机会,越来越多的厂商转向对AMD平台的支持,因此届时Torrenza应该会得到很多。有力的支持。
Torrenza寄托着AMD的希望
其实,Torrenza已经开始进行实验性质的应用,IBM的超级计算机“RoadRunner”就是Torrenza的首次展现。“RoadRunner”由IBM为美国能源部国家核安全管理局(NNSA)打造,内部采用了1.6万颗Opteron处理器和1.6万颗Cell处理器,并且使用HyperTransport,总线提供CPU之间的相互连接,其中Opteron负责输入/输出、通信等任务,更复杂的计算任务则交给Cell。
Torrenza架构将会在2008年应用在服务器上,2010年前后再逐渐过渡到PC领域。到那个时候,大家买的主板上就会出现好几个类似现在CPU插槽一样的接口,我们可以自行增强PC的功能,例如增加物理协处理器来玩大型3D游戏,增加视频编解码协处理器来处理视频编辑工作,或增加纯浮点运算协处理器来进行科学计算。这种升级方式只是添加了协处理器,原有配件依然在使用,从用户角度来看Torrenza架构还能有效地保护原先的投资。
对于AMD而言,Torrenza寄托着使自己超越英特尔的希望。毕竟在传统产品上,AMD大多落后于对手,在接下来的四核处理器和制程升级大战中我们仍未看到AMD有“翻身”的迹象。而且2006年并购ATI和与英特尔大打价格战让AMD的财务状况异常吃紧,因此AMD只有谋划未来,开辟新的“战场”,才能掌握主动。对于在技术上几乎成型,在时间上已经抢先的Torrenza来说,在未来几年的计算机变革中完全有可能帮助AMD取得领先,让我拭目以待。
众所周知,对于现有的计算机系统而言,CPU就是“大脑”,其核心地位似乎不容置疑,不过实际情况正在悄然改变。针对大量复杂的物理运算,CPU已经显得力不从心,于是专用的物理处理器和显卡的物理引擎开始从CPU那里接过物理运算任务,这样才能在《Crysis》等新一代游戏中实现高度互动的物理环境。而目前研究正盛的GPGPU(通用GPU)也将矛头直指CPU——由于现有CPU的浮点运算能力低下,并非是科学计算、医疗等领域的最佳选择,而擅长浮点运算的GPU经过一定的改造就能用于通用计算,其性能/功耗比大大优于CPU。可见,在很多特定的用途上,越来越多的专业芯片正在取代CPU的位置。
当然,面对专业化运算的发展趋势,CPU自身的设计也在发生着改变。使用在PS3游戏主机中的Cell处理器就集成了SPE协处理器以增强浮点运算能力;英特尔刚刚发布的80核心Tera-Scale处理器也有异曲同工之妙,其内部集成的核心可以按照需求更换为专业处理单元,女HGPU、DSP或物理处理单元等等。这些新型CPU可以将各种可编程处理单元集成在一颗芯片中,能够适应更多的专业应用环境,不过它们的一大缺点是:其架构都是封闭式的,用户只能在购买时选择针对特定用途的新型CPU,之后就无法随意更改其协处理器的配置。
作为“英特尔追赶者”的角色,AMD常常用更加开放、更加灵活的产品设计来吸引市场,这次也不例外。AMD针对计算机系统结构提出了Torrenza架构,这种开放式的架构能让用户以芯片或板卡的形式在主板上自行添加协处理器。或许再过几年,当你攒机买主板的时候,考虑的并不是PCI-E插槽的数量是否足够安装各种显卡、声卡和电视卡,而是仔细盘算主板上CPU插座和HTX插槽(HyperTransport 3.0总线的外接形式)的数量,因为它们决定了今后PC的升级能力——能安装多少个专业的协处理器。
细数Torrenza的关键技术
1 直连技术从Athlon 64开始
如果你正在使用AMD的Athlon 64系列CPU的话,那么恭喜你已经开始“体验”Torrenza架构了,因为Athlon 64系列处理器(特别是双核处理器)所使用的直连技术就是未来Torrenza架构众多技术中一项。
所谓的直连技术,就是让多核CPU的各个核心之间、CPU与CPU之间、CPU与协处理器之间以及CPU和内存之间都通过HyperTransport总线相连接。相对来说,在英特尔现有的多路处理器系统中,CPU之间并未直接相连,而是连接在前端总线上,CPU之间交换数据时必须通过前端总线中转,这可能会造成数据的拥堵。在目前AMD的多路处理器系统中,所有的CPU都是通过独立的HyperTransport总线连接在一起,它们之间可以相互直接通信,不会对其它CPU的数据传输造成影响。
这种一对一的通信方式非常迅速高效,在不久的将来,这项技术还会应用到协处理器上。它让协处理器在工作的时候,相互之间的通信延迟更小,多个协处理器之间协同工作时也不会遇到总线拥堵的情况。现在AMD在Athlon 64以及Opteron处理器上使用的HyperTransport 1.0总线还略带有一些试验和试探的性质,在未来的K10处理器和Torrenza架构上使用的则是其3.0版本,总线带宽将从1.0版本的11.2GB/s提升到41.6GB/s,以满足多核处理器和协处理器的数据传输需求。
2 协处理器也集成内存控制器
我们知道,Athlon 64系统处理器的一大特色是集成了内存控制器,这让CPU在与内存进行数据交换时不必再通过北桥芯片,大大降低了延迟,提高了性能。在Torrenza架构中,不仅仅是CPU,其它协处理器也将会集成内存控制器。作为“协助者”,以往协处理器在访问内存时必须通过CPU进行请求,今后协处理器将能直接与内存进行通信,看上去就像是额外的“CPU”一样。
3 HTX接口造就开放式架构
如前面所介绍的,Torrenza构架的核心应用是在系统中挂接基于HyperTransport 3.0总线的浮点协处理器、物理协处理器、视频解码器、专门针对Java程序的硬件解释器等各种专业的协处理器。对于挂接的方式,AMD提供了两种完全不同的解决方案。一种是通过现有的CPU插座的方式直接安装协处理器到主板上,另一种便是利用HTX插槽,以协处理器板卡的形式插在主板上。
HTX插槽基于HyperTransport 3.0总线,带宽高达41.6GB/s;而现在的PCI-E1.0总线的带宽仅为8.0GB/s,即使下一代PCI-E 2.0总线的带宽也不过16GB/s,远不及HyperTransport 3.0总线。因此从这一点上来看,HTX插槽足够应付各种专业协处理器和显卡的带宽需求。同时,Torrenza是一个开放式架构,不同的协处理器制造商都能使用HTX接口,让自己的产品与Torrenza架构实现兼容。此外,支持热插拔也是HTX的一大亮点,例如你可以在不关机状态下直接安装或者升级协处理器,而不必担心正在执行的计算任务被迫中断,今后安装/卸除协处理器就像使用USB设备一样简单!
4 部署专业的协处理器
在协处理器方面,AMD一直在强调GPU比传统的CPU更加适合处理特殊的运算。在过去的十几年中,GPU已经从一个相对简单的、仅有固定功能的标准处理芯片变成了一个可以做海量计算的、可编程的庞然大物。现在GPU不但可以加速高清视频、物理运算,还能进行各种通用计算。为了让GPU在更广阔的领域得到应用,AMD正在开发流处理器,NVIDIA也在进行CUDA研究计划(研究GPU的通用计算)。
AMD最近发布了使用GPU运算的Folding@home的Beta版,它可以让你的Radeon X1600级别以上的显卡参加到这个全球性的分布式计算中来。你可以很明显地发现,GPU在Folding@home项目中的计算效率要远远高于传统的CPU,仅仅2344颗GPU就提供了比217103颗CPU(高效的Linux的平台下)更高的计算能力,这种效率甚至比采用Cell处理器的PS3还要高(笔者的AMD爱好者网(www.amdfami.com)也在参与这个项目,希望有Radeon X1600以上显卡的朋友加入进来,一起为科学计算做贡献,我们的“Team No.”是60458)。这种通用GPUiE是Torrenza架 构计划的一部分,它将大大增强Torrenza架构在科学计算等专业领域的吸引力。
5 OpenFPGA助力
FPGA(field-programmable gate array)即现场可编程门阵列,是在PAL、GAL、EPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。它的逻辑部件可以通过编程来实现电子元件中的逻辑门(与、或、非、异或门)的功能,也可以实现更复杂的功能,如解码、简单的数学公式运算等等,相当灵活自由。
OpenFPGA(开放式的FPGA)可以让用户随时通过对关键逻辑门的硬件编程来满足不同任务的需求。这与把GPU改造为通用GPU类似,只不过通用GPU主要依靠软件来实现,而OpenFPGA则是在芯片的硬件结构上做文章。OpenFPGA意味着更多的芯片制造商可以针对特殊领域生产专业芯片,作为协处理器的一种补充应用在Torrenza上。
Torrenza面临的竞争
在这种新型的协处理器架构方面,英特尔同样也进行着研究。遗憾的是,目前我们还没有得到整个项目的确切消息,但我们知道在架构的总线连接方式上,英特尔同时准备了两种方案(当然不会是HyperTransport 3.0总线)。其一是基于PCI-E总线的新型总线(项目代号Geneseo),与HTX插槽类似,它也可以用扩展卡的方式来安装协处理器。Geneseo是英特尔与IBM合作开发的项目,将替代目前即将出炉的PCI-E 2.0总线,以提供更快的速率和更小的延迟。另一个项目则被称为CSI总线,对此官方还没有透露更多的消息。
我们知道,无论是迅驰平台还是欢跃平台,英特尔采用的都是封闭式架构,这让第三方厂商很难参与其中,自然利润也大多落到了英特尔手中。不过AMD的开放式架构能给第三方厂商以更多的机会,越来越多的厂商转向对AMD平台的支持,因此届时Torrenza应该会得到很多。有力的支持。
Torrenza寄托着AMD的希望
其实,Torrenza已经开始进行实验性质的应用,IBM的超级计算机“RoadRunner”就是Torrenza的首次展现。“RoadRunner”由IBM为美国能源部国家核安全管理局(NNSA)打造,内部采用了1.6万颗Opteron处理器和1.6万颗Cell处理器,并且使用HyperTransport,总线提供CPU之间的相互连接,其中Opteron负责输入/输出、通信等任务,更复杂的计算任务则交给Cell。
Torrenza架构将会在2008年应用在服务器上,2010年前后再逐渐过渡到PC领域。到那个时候,大家买的主板上就会出现好几个类似现在CPU插槽一样的接口,我们可以自行增强PC的功能,例如增加物理协处理器来玩大型3D游戏,增加视频编解码协处理器来处理视频编辑工作,或增加纯浮点运算协处理器来进行科学计算。这种升级方式只是添加了协处理器,原有配件依然在使用,从用户角度来看Torrenza架构还能有效地保护原先的投资。
对于AMD而言,Torrenza寄托着使自己超越英特尔的希望。毕竟在传统产品上,AMD大多落后于对手,在接下来的四核处理器和制程升级大战中我们仍未看到AMD有“翻身”的迹象。而且2006年并购ATI和与英特尔大打价格战让AMD的财务状况异常吃紧,因此AMD只有谋划未来,开辟新的“战场”,才能掌握主动。对于在技术上几乎成型,在时间上已经抢先的Torrenza来说,在未来几年的计算机变革中完全有可能帮助AMD取得领先,让我拭目以待。