论文部分内容阅读
2006年11月,随着国际国内两大权威超级计算机排名“全球TOP500超级计算机排行榜”和“2006年中国高性能计算机性能TOP100排行榜”的发布,高性能计算再次吸引了业内人士乃至普通大众的关注。而这两大排行榜中,基于AMD皓龙的系统已经分别占据了22%和24%的份额,与2005年相比有了一倍以上迅猛增长,刮起了高性能计算的皓龙风暴。
高性能计算领域的“皓龙现象”值得我们关注,本文试图从架构、能效和高性能计算的未来发展趋势等几个方面,管窥皓龙迅速崛起高性能计算领域背后的秘密。
AMD64技术开创64位计算时代
AMD于2003年推出的皓龙处理器基于AMD64技术,将x86计算带入了64位时代。AMD64技术具有独特的直连架构,在芯片上集成内存控制器,通过超传输总线技术,实现处理器和I/O以及内存之间的高速互连,消除了传统前端总线的固有瓶颈,大大提高了系统的总体性能和效率。另外,AMD64技术还通过集成增强病毒防护技术(EVP)提高用户计算环境的安全性。
作为业内首款将 32位 及 64 位计算结合在一起的高效架构,AMD64技术在支持64位计算的同时兼容32位计算。对于大量运行32位应用的企业用户而言,可以在兼容现有32位软件应用的同时,为将来随时升级到64位做好准备,保障了其既有投资。
创新架构突破传统系统瓶颈
AMD皓龙处理器性能卓越,这首先要归功于AMD独创的直连架构。很多业内人士都把直连架构视为x86处理器领域最重要的技术创新之一。通过将内存控制器内置入处理器和采用高速串行超传输技术(HyperTransport),直连架构使得处理器与芯片组、处理器与内存、处理器与处理器之间都可通过超传输总线相连,大大提高了效率,避免了前端总线架构中多个组件共用一条总线造成的带宽争抢“内耗”,实现了处理器与其他组件之间的快速响应,最大限度降低了内存延迟。
超传输总线的发展历程
这种架构的点对点高速传输特性让服务器扩展处理器数量时的性能损耗和难度大幅降低,而其出色的带宽则让基于皓龙的服务器在运行企业级数据密集型任务时表现更为流畅。 由于AMD皓龙内置内存控制器,无需通过北桥芯片来访问内存,处理器降低了系统功耗,提高了稳定性,因此在密集空间中可以部署基于大量AMD 皓龙处理器的超级计算机。
超传输总线(HT)搭建多核时代的高速公路
超传输总线(HyperTransport)技术是AMD所独有的新一代芯片互联总线技术,旨在提高电脑、服务器、嵌入式系统,以及网络和电信设备的集成电路之间的通信速度。通过减少系统中的布线数量,减少系统瓶颈,CPU到CPU间的双向带宽可达6.4GB/秒,多至三条16-bit的超传输总线可带来19.2GB/秒的传输带宽,这消除了所有总线瓶颈问题,令CPU更加有效地在高端多处理器系统中使用系统内存。直连架构和超传输总线技术的完美结合,使基于AMD处理器的系统平台在向未来多核计算扩展时更加灵活和简单。
2006年,频率更高,资源配置更灵活的HyperTransport3.0版本问世。HyperTransport3.0将工作频率从HyperTransport2.0最高的1.4GHz猛增到2.6GHz,提升幅度几乎达到一倍,同时还提供了32bit位宽,在高频率(2.6GHz)、高位宽(32bit)的运行模式下,它可以提供高达41.6GB/s的总线带宽,足以应付未来3年内显卡和处理器对系统带宽的需求。
为了加速HyperTransport3.0技术在超级计算系统中的扩展应用,AMD还推出了第一个超传输总线的扩展接口规范HTX。基于HTX接口,超级计算机的系统制造商所添加的协处理器可以通过超传输总线与AMD皓龙处理器相连,从而显著提升超级计算系统在特定应用上的计算能力。
真四核皓龙蓄势待发
继2005年率先在x86架构服务器中引入真双核技术后,AMD将在2007年中期推出代号为“巴塞罗那”的四核处理器,据称是业界首个真正的四核架构,即在同一硅片上整合四颗处理核心。AMD的真四核处理器采用65nm 绝缘硅(SOI)生产工艺、新增可扩展的共享三级缓存、128 位 的FPU(浮点运算单元)。AMD四核处理器的每个核心都具备“改进的分支预测”能力,可以在每个时钟周期循环内完成两个128-bit载入、执行最多四个双精度浮点操作,以及两个128-bit的SSE数据流,并支持SSE指令集扩展。
AMD实验室的模拟测试表明,AMD四核皓龙处理器在性能上得到了大幅度的提升,与现有的AMD双核皓龙处理器相比,四核皓龙在应用某些数据库软件时,性能提升高达70%。
除了性能上的提升,AMD四核皓龙处理器还采用了“独立核心动态调用”(DICE)的四核心电源管理技术。DICE不仅会根据系统负载智能分配各核心需要执行的任务,还可以在处理器核心处于空闲状态时将其转入完全休眠状态,从而大幅降低了功耗。与双核皓龙相比,AMD四核皓龙功耗相同,从而进一步提高了皓龙的每瓦性能优势。
开放架构 顺应未来超级计算发展趋势
目前,超级计算多应用于军事、医药、气象、生物研究等专门领域,全球超级计算系统中除了部分由大量通用计算机形成的超级计算集群外,大部分超级计算机都是针对某些特殊应用而研发的的专用超级计算机,比如排名全球TOP500第二名由Cray公司研制的“红色风暴”就是为专用计算而设计的。为了能够进一步提高专用高性能计算机系统的性能,AMD在2006年11月推出了全球首款可满足高性能计算特殊需求的专用流处理器AMD Stream ProcessorTM。这款处理器专为工作站和服务器等纯计算系统而设计,采用被称为 CTMTM(Close To Metal)的 AMD 新型瘦硬件接口,能够显著提高在金融分析、地震偏移分析、生命科学研究和其它应用领域的计算性能。
AMD除了在CPU性能和多核技术等方面不断创新,还将引入了GPGPU(General Purpose on GPU)应用的概念,通过企业级的流计算处理器,利用GPU上成熟的大规模并行处理器执行通用计算任务。
超级计算系统从专用向通用转变是未来高性能计算发展的趋势之一,为了能够进一步提高通用超级计算系统的性能,推动系统制造商、其它处理器和硬件供应商在一个共同的生态系统内进行技术创新,AMD推出了Torrenza协作计划。它通过开放的HTX接口,令用户和合作伙伴可以利用直连架构和超传输技术的优势,开发和部署面向特殊应用的协处理器,与 AMD 处理器在多插槽系统中协同工作,从而提高系统性能。今后,行业用户将会大量应用“通用CPU 应用加速器”的解决方案——直接与CPU相连的加速器可以为XML解析、游戏物理加速和浮点加速等应用带来成百上千倍计算效率的提升。
高性能计算领域的“皓龙现象”值得我们关注,本文试图从架构、能效和高性能计算的未来发展趋势等几个方面,管窥皓龙迅速崛起高性能计算领域背后的秘密。
AMD64技术开创64位计算时代
AMD于2003年推出的皓龙处理器基于AMD64技术,将x86计算带入了64位时代。AMD64技术具有独特的直连架构,在芯片上集成内存控制器,通过超传输总线技术,实现处理器和I/O以及内存之间的高速互连,消除了传统前端总线的固有瓶颈,大大提高了系统的总体性能和效率。另外,AMD64技术还通过集成增强病毒防护技术(EVP)提高用户计算环境的安全性。
作为业内首款将 32位 及 64 位计算结合在一起的高效架构,AMD64技术在支持64位计算的同时兼容32位计算。对于大量运行32位应用的企业用户而言,可以在兼容现有32位软件应用的同时,为将来随时升级到64位做好准备,保障了其既有投资。
创新架构突破传统系统瓶颈
AMD皓龙处理器性能卓越,这首先要归功于AMD独创的直连架构。很多业内人士都把直连架构视为x86处理器领域最重要的技术创新之一。通过将内存控制器内置入处理器和采用高速串行超传输技术(HyperTransport),直连架构使得处理器与芯片组、处理器与内存、处理器与处理器之间都可通过超传输总线相连,大大提高了效率,避免了前端总线架构中多个组件共用一条总线造成的带宽争抢“内耗”,实现了处理器与其他组件之间的快速响应,最大限度降低了内存延迟。
超传输总线的发展历程
这种架构的点对点高速传输特性让服务器扩展处理器数量时的性能损耗和难度大幅降低,而其出色的带宽则让基于皓龙的服务器在运行企业级数据密集型任务时表现更为流畅。 由于AMD皓龙内置内存控制器,无需通过北桥芯片来访问内存,处理器降低了系统功耗,提高了稳定性,因此在密集空间中可以部署基于大量AMD 皓龙处理器的超级计算机。
超传输总线(HT)搭建多核时代的高速公路
超传输总线(HyperTransport)技术是AMD所独有的新一代芯片互联总线技术,旨在提高电脑、服务器、嵌入式系统,以及网络和电信设备的集成电路之间的通信速度。通过减少系统中的布线数量,减少系统瓶颈,CPU到CPU间的双向带宽可达6.4GB/秒,多至三条16-bit的超传输总线可带来19.2GB/秒的传输带宽,这消除了所有总线瓶颈问题,令CPU更加有效地在高端多处理器系统中使用系统内存。直连架构和超传输总线技术的完美结合,使基于AMD处理器的系统平台在向未来多核计算扩展时更加灵活和简单。
2006年,频率更高,资源配置更灵活的HyperTransport3.0版本问世。HyperTransport3.0将工作频率从HyperTransport2.0最高的1.4GHz猛增到2.6GHz,提升幅度几乎达到一倍,同时还提供了32bit位宽,在高频率(2.6GHz)、高位宽(32bit)的运行模式下,它可以提供高达41.6GB/s的总线带宽,足以应付未来3年内显卡和处理器对系统带宽的需求。
为了加速HyperTransport3.0技术在超级计算系统中的扩展应用,AMD还推出了第一个超传输总线的扩展接口规范HTX。基于HTX接口,超级计算机的系统制造商所添加的协处理器可以通过超传输总线与AMD皓龙处理器相连,从而显著提升超级计算系统在特定应用上的计算能力。
真四核皓龙蓄势待发
继2005年率先在x86架构服务器中引入真双核技术后,AMD将在2007年中期推出代号为“巴塞罗那”的四核处理器,据称是业界首个真正的四核架构,即在同一硅片上整合四颗处理核心。AMD的真四核处理器采用65nm 绝缘硅(SOI)生产工艺、新增可扩展的共享三级缓存、128 位 的FPU(浮点运算单元)。AMD四核处理器的每个核心都具备“改进的分支预测”能力,可以在每个时钟周期循环内完成两个128-bit载入、执行最多四个双精度浮点操作,以及两个128-bit的SSE数据流,并支持SSE指令集扩展。
AMD实验室的模拟测试表明,AMD四核皓龙处理器在性能上得到了大幅度的提升,与现有的AMD双核皓龙处理器相比,四核皓龙在应用某些数据库软件时,性能提升高达70%。
除了性能上的提升,AMD四核皓龙处理器还采用了“独立核心动态调用”(DICE)的四核心电源管理技术。DICE不仅会根据系统负载智能分配各核心需要执行的任务,还可以在处理器核心处于空闲状态时将其转入完全休眠状态,从而大幅降低了功耗。与双核皓龙相比,AMD四核皓龙功耗相同,从而进一步提高了皓龙的每瓦性能优势。
开放架构 顺应未来超级计算发展趋势
目前,超级计算多应用于军事、医药、气象、生物研究等专门领域,全球超级计算系统中除了部分由大量通用计算机形成的超级计算集群外,大部分超级计算机都是针对某些特殊应用而研发的的专用超级计算机,比如排名全球TOP500第二名由Cray公司研制的“红色风暴”就是为专用计算而设计的。为了能够进一步提高专用高性能计算机系统的性能,AMD在2006年11月推出了全球首款可满足高性能计算特殊需求的专用流处理器AMD Stream ProcessorTM。这款处理器专为工作站和服务器等纯计算系统而设计,采用被称为 CTMTM(Close To Metal)的 AMD 新型瘦硬件接口,能够显著提高在金融分析、地震偏移分析、生命科学研究和其它应用领域的计算性能。
AMD除了在CPU性能和多核技术等方面不断创新,还将引入了GPGPU(General Purpose on GPU)应用的概念,通过企业级的流计算处理器,利用GPU上成熟的大规模并行处理器执行通用计算任务。
超级计算系统从专用向通用转变是未来高性能计算发展的趋势之一,为了能够进一步提高通用超级计算系统的性能,推动系统制造商、其它处理器和硬件供应商在一个共同的生态系统内进行技术创新,AMD推出了Torrenza协作计划。它通过开放的HTX接口,令用户和合作伙伴可以利用直连架构和超传输技术的优势,开发和部署面向特殊应用的协处理器,与 AMD 处理器在多插槽系统中协同工作,从而提高系统性能。今后,行业用户将会大量应用“通用CPU 应用加速器”的解决方案——直接与CPU相连的加速器可以为XML解析、游戏物理加速和浮点加速等应用带来成百上千倍计算效率的提升。