勇闯天河 探秘“天河一号”超级计算机

来源 :微型计算机 | 被引量 : 0次 | 上传用户:yjxff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  国际超级计算大会(ISC,International Supercompufing Conference)每年都会发布两次世界上运算速度最快的计算机名单,名为Top500榜单。在2010年11月发布的最新Top500排行榜上,中国自主研发的超级计算机“天河一号”以每秒2507万亿次的计算性能荣登榜首,排在第三的是由曙光公司研制的“星云”超级计算机。从前十名的排名来看,中国两台计算机冲入前五标志着国内高性能计算在性能上已经达到国际先进水平。超级计算机的研制历程表明,我们要在高技术领域有所作为,必须走一条具有中国特色的自主创新之路。只有在和核心技术、实际效益和人才培养上不断地实现新的突破,科学研究才有持续向前发展的动力。
  
  “天河一号”的强大性能
  
  随着我国经济持续不断地发展,科学技术、军事、医药研究等领域已经对千万亿次甚至更高性能的计算机提出了现实需求。“天河一号”超级计算机是我国近年来自主研发的具有国际领先水准的超级计算机,它的研制者仍然是国防科技大学,1983年面世的中国第一台亿次计算机“银河一号”同样诞生在这所大学。在中国传统文化里,“天河”是银河的别称,这台计算机的名字也暗示着我国超级计算机天津中心与“银河一号”计算机诞生地之间的合作。
  采用了“多阵列可配置协同并行体系结构”等7项关键创新技术的“天河一号”超级计算机,综合技术水平位居世界前列,具有高性能、高能效、高安全和易使用的特点。作为中国高技术研究发展计划(863计划)中的重大项目,“天河一号”超级计算机的设计始于2008年。
  2010年年底,这台由103个机柜组成,占地面积近千平方米,总重量155吨的庞大计算机安装到了中国两个国家级超级计算中心之一的天津中心,向国内外用户提供超级计算服务。“天河一号”将在资源勘探、生物医药研究、航空航天装备研制、金融工程、新材料开发等方面得到广泛应用。同时,国防科学技术大学随后在“天河一号”的基础上,对加速节点进行了扩充与升级,新的“天河一号A”系统已经完成了安装部署,其实测运算能力从上一代的每秒563.1万亿次倍增至2507万亿次,成为目前世界上最快的超级计算机!
  不过在这里读者肯定有一个疑问。对超级计算机而言,应该如何测量、确定它的性能呢?下面我们就来介绍T目前国际流行的主流测试方式——Linpack。
  
  衡量超级计算机的性能指标
  
  在介绍Linpack之前,我们先来熟悉几个术语。
  对于超级计算机这种机群系统的主要性能指标有峰值速度、实测速度和运行效率等,计算速度一般以计算机系统“每秒执行的浮点运算次数”(Float ingpoint Operations Per Second,Flop s)为单位,并定义了扩展单位MFlops(百万次浮点运算每秒)、GFlops(十亿次浮点运算每秒)、TFlops(万亿次浮点运算每秒)和PFlops(千万亿次浮点运算每秒)等单位,下面我们简单介绍一下这些术语。
  
  (1)峰值速度
  峰值速度通过计算得出,也称为理论峰值速度。其计算公式为[理论峰值速度(亿次)=节点机每个处CPU主频(MHz)×CPU每个时钟周期执行浮点运算的次数×CPU总数目/108]。例如,“天河一号”的峰值速度为1206万亿次每秒(TFlops)或1.206千万亿次每秒(PFlops)。
  
  (2)实测速度
  用评测软件对机群系统计算速度的实际测试值,目前国际上通用的超级计算机或高性能计算机评测软件是Linpack。这是一套采用求解线性方程组和特征值问题的方法来综合评价超级计算机浮点运算性能的基准测试软件。实测速度能更客观地反映系统的实际计算性能,对用户而言,实测速度比峰值速度更有意义。
  
  (3)运行效率
  一般是指超级计算机实测速度与峰值速度的比率。运行效率越高,表明系统具有的处理资源等经过合理的系统设计得到了更有效的发挥。相对于由处理器数量和性能决定的理论峰值速度而言,运行效率显然是一个能够更全面、科学地反映超级计算机性能和技术先进性的指标。
  Linpack是国际上最流行的用于测试高性能计算机系统浮点性能的测试软件。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。测试包括三类:Linpack100、Linpackl000和HPL。HPL即High Performance Linpack,也叫高度并行计算基准测试。天河一号采用的LinpackN试方法为主流的HPL。
  HPL测试全称为高性能计算Linpack基准测试。Linpack最初的设计目的是为了帮助用户在解一个线性方程式时提供执行时间信息。第一个“Linpack基准”报告作为附录在1979年出现在Linpack用户指南上,其中包括了Linpack软件组件通常的用法途径的数据:针对一个行列大小都为100的矩阵问题,汇集了众多在当时得到广泛使用的计算机系统上(共计有23种)的结果。这样,用户就可以推断出解决他们的矩阵问题所需时间。
  Linpack基准测试报告描述在求解计算密集型矩阵问题Ax=b时的性能,分为三个问题规模及相应的优化选项:100×100问题(内部循环优化),1000×1000问题(三级循环优化)以及一个可扩展并行问题。使用HPL基准测试一般需要和收集的信息包括:
  (1)Kpeak。系统的最大理论峰值性能,用GFLOPS表示。
  (2)Nmax获得最高GFLOPS值时的矩阵规模或问题规模。
  (3)Rmax。在Nmax规定的问题规模一达到的最大GFLOPS。
  (4)NB。对于数据分配和计算粒度,HPL使用的块尺度NB。
  这些测试出来的数据可以作为判定超级计算机性能的指标。
  和所有PC上的理论测试软件一样,Linpack仅仅是一个测试软件,很难也不可能代表超级计算机的全部表现,因此这些数据仅表示超级计算机可能达到的理论值,以及其目前的运算能力。不仅如此,目前超级计算机本身的优化和性能调配依旧是一门发展不够完善的学科,再加上软件对硬件的优化以及并行计算的效率提升方面还有很大空间可以发展,因此超级计算机在实际应用中应该有怎样的表现、性能发挥情况如何,还需要实际应用才能证明。
  
  
  “天河一号A”硬件架构分析
  
  “天河一号A”在基本组织架构上和之前的“天河一号”比较相似,因此我们先来熟悉一下“天河一号”的架构和系统情况。
  
  “天河一号”组织架构
  “天河一号”系统共有5120个图形加速处理器(GPU)和6144个通用处理器(CPU),峰值速度达1206TFlops,内存总容量为98TB,Linpack实测性能为 563.1TFlops。其计算量若由一台微型计算机来执行大约连续计算160万年才能完成。“天河一号”是采用并行体系结构的超级计算机,采用的是AMD的图形核心。其特殊之处在于多阵列、可配置、协同并行,实现了“CPU GPU”的异构协同计算,提高了计算效能。
  “天河一号”超级计算机采用了多阵列、可配置、协同并行体系结构,系统由计算阵列、加速阵列和服务阵列组成,其中计算阵列、服务阵列分别由采用通用处理器(CPU)的计算节点机、服务节点机构成,加速阵列则由基于图形加速处理器(GPU)的大量加速节点机构成,实现了“CPU GPU”的异构协同计算,提高了计算效能。此外,“天河一号”采用了便于维护和高密度的刀片式(Blade)结构,每个机位都有几十个可热插拔的刀片,每个“刀片”实际上就相当于一块计算机主板,组成一台配置有处理器、内存等模块的节点计算机。
  
  GPU CPU的理论基础架构
  如果“天河一号”仅使用传统处理器,每一个处理器只有100GFLOS的计算能力,要想达到与原来同样的性能的话至少需要50000颗处理器。而现在使用“CPU GPU”的异构并行架构之后系统功耗也会从原来的1200万瓦特减少为404万瓦特,在提倡绿色环保的主题下,这样节省的电力够5000多居民使用一年。由于CPU和GPU的配合,可以把传统中数据密集的大规模数据并行的计算交给GPU来运行,CPU可以计算逻辑性较强的数据结构比较复杂的计算,利用CPU和GPU的协同性工作,互相做自己最擅长的工作,使得整个系统的性能得到了更高。CPU采用了复杂的控制逻辑和分支预测,以及大量的缓存来提高执行效率,这样可以使执行单元以很低的延迟获得数据和指令。而对延迟更加敏感的GPU侧重于提高整体的数据吞吐量。设计目标的不同使得CPU和GPU在架构和性能上有巨大差异。具有强大处理能力和高带宽的GPU弥补了CPU在计算方式上性能不足的缺点,在降低成本和性价比方面具有巨大优势。
  硬件设计中的最大难点是如何将庞大数量的处理器通过网络把节点集合起来,并使得他们可以高速并行的协同工作。“天河一号”并不是简单的拼凑CPU和GPU,让这么庞大的不可思议的硬件协作起来,并让它有惊人的运算能力是必须拥有良好的网络连接的,这里的网络互联芯片完全是中国自主研发的处理器。
  “天河一号”其他子系统分别采用如下的结构:并行I/O存储子系统采用全局分布共享并行I/O系统结构,磁盘总容量为1PB;互连系统采用两级QDRInfiniband架构,每个通信链路的带宽为40Gbps;监控诊断子系统采用分布式集中管理架构,具有实时的系统监测、调控和诊断等功能。
  
  “天河一号A”架构介绍
  “天河一号”改进型“天河一号A”将理论运算能力提升至每秒4701万亿次,实测运算能力提升至每秒2507万亿次的高度,荣登世界超级计算机排行榜榜首。它是一套开放式访问系统,可用来执行大规模科学计算。
  升级版的“天河一号A”则改装了14336颗Intel Xeon X5670 2.93GHz六核心处理器,7168块NVIDIA Tesla M2050高性能计算卡,还有2048颗我国自主研发的飞腾FT-1000八核心处理器,总计20多万颗处理器核心。内存总容量为262TB,链路双向带宽为160Gbps,共享磁盘总容量2PB,Lustre全局分部共享并行I/O结构,同时还更换为专有互联网络进行通信。计算机柜为112个,服务机柜8个,通信机柜6个,I/O存储机柜14个。
  在经过改装后的“天河一号A”的Linpack实测性能飙升至2.507PFlops(2507万亿次),峰值性能更是高达43PFlops(4701万亿次),分别是上代的4.4倍、3.9倍,而目得益于Fermi架构的Tesla GPU商陛能计算卡,“天河一号A”的系统效率(最大性能与峰值性能比值)明显提升,从原来的46.7%升至53.3%。
  
  自主研发的飞腾FT-1000八核心处理器
  “天河一号A”研制之初,除使用了进口CPU和GPU之外,其他核心器件、互联芯片均为我国自主研制。随着科研人员的不懈努力,如今“超高性能CPU”这道难题也迎刃而解。国产飞腾FT-1000八核芯片,由国防科技大学专门为“天河”系列计算机量身定制,已达到了当今世界主流。据了解,安装飞腾芯片后,不仅“天河一号A”的峰值运算速度将在目前每秒1206万亿次的基础上有所提升,而且其实际运算速度也将提高到每秒千万亿次。同时,由于关键芯片实现完全“国产化”,也将使“天河一号A”在确保信息安全方面拥有更多的保证。
  
  “天河一号A”高性能关键——GPU计算卡
  “天河一号A”占据了HPC TOP500的第一,那么它制胜的关键是什么?那就是GPU部分采用了NVIDIA Tesla M2050/M2070计算模块解决方案,核心威力在于会以二十分之一的功耗与十分之一的成本即可实现超级计算能力,从而为部门集群与数据中心的部署提供了全球最高的计算密度。至于Tesla M2050与M2070计算模块,它们是基于代号为“Fermi”的GPU核心,双精度性能超过四核x86 CPUt倍。值得一提的是它拥有ECC存储器,保证了数据的一致性。在进行GPUSt算时,所有的标准优势和最高可靠性都可以实现,无缝紧密地集成了系统监控与管理工具,其中包括各种各样的架上型与刀片式系统。此外,这些系统还包含了用户所需的远程监控与远程管理功能,从而可满足高性能计算与大型数据中心以及横向扩展等部署需求。
  
  “天河一号A”软件架构分析
  “天河一号A”的软件系统包括操作系统、编译系统、资源管理系统和并行程序开发环境等。操作系统采用面向高性能并行计算的64位Linux,支持功耗管理、虚拟化和安全隔离等。编译系统支持C、C 、Fortran和Java等的并行编程,并提供了异构协同编程框架以有效发挥CPU与GPU的协同计算能力。资源管理系统可提供整个系统的资源统—视图,能实现多策略资源分配与作业调度,有效提高资源利用率和系统吞吐率。
  从世界的范围来看,超级计算机的应用目前几乎已涉及科学技术、工业设计、金融和经济管理以及军事国防等相关的各种领域,例如与人们生活密切相关的天气预报和气候模拟、地震预报和监测等方面的应用,还有环境监测和分析、石油等自然资源的勘探,生物及医学领域的基因与遗传工程、药物研制、医学影像的分析处理,航空航天领域的飞行器设计,军事武器的研制和模拟试验,还有基础科学研究等领域的大规模数值计算。除了具有超强大的科学计算能力之外,超级计算机具有高效的信息服务和事务处理能力,因此也可以用作信息服务、事务处理与决策支持等系统的高性能服务器。   
  未来高性能计算展望
  
  虽然诸如“天河一号A”这样的产品占据了HPC Top500的第一,但从榜单来看,PACPU为主的计算机仍然是绝对的主流。造成这种局面的原因有PATYL个:GPU高性能运算的发展掀起了一股热潮,它使得很多应用领域的处理速度得以大幅度提升,但是它的编译技术仍然是HPC的核心问题,如果一个应用在GPU高性能服务器上运行,速度可以提高100倍,那么使用者一定会买,但是与此同时如果说串行移植需要三年的时间,也许使用方就会考虑使用的方便性和可靠性。同时GPU的普及也同样需要时间,这样的局面才使得HPC主流仍然是以CPu为主。随着GPu的不断发展,其高性能运算的编译技术不断通用,将使得GPU CPU异构形式的HPC不断发展。“天河一号”一举夺得了中国TOP100超级计算的排名的桂冠,闯入全球TOP500强的前五位,让人们见到了GPU计算的威力所在。完全可以说,GPU通用计算已经是一个不可阻挡的潮流,纵核计算是将来的一个大方向,那么在未来的HPC市场,GPU通用计算又将如何发展呢?
  GPU本身也具备了高度并行的科学计算能力,在许多计算的领域中,微观体彼此相对独立,包括其计算每个微观体的计算,极少有相互作用,不需要依靠上一步的计算结果才能开始下一步运算的模式,如果使用GPU,它的的高运算能力将得到充分地体现。目前GPGPU已经有不少的HPC应用软件投入了使用,并且都取得了不错的相对于传统CPU计算的加速比,最高达到了149倍(金融模拟)、最低也达到了18倍(视频转换),由此可见GPU计算的威力。因此,未来CPU GPU混合计算的趋势将是最终替代传统的纯CPu解决方案。
  另一方面,从全球的Top500强来看的话,采用GPU混合计算系统很少见,而中国现在比较热衷于GPU异构计算系统的开发,而且越做越大,排名第一的“天河一号”和排名第三的“星云”都采用了GPU异构计算架构。这是因为高性能计算在全球的主要行业应用和中国略有不同。从商业角度来说制造、金融,华尔街是Intel非常大的高性能计算的客户,包括气象预报。中国除了石油、气象包括基因研究,其他一些应用已经在兴起。
  在GPU异构计算系统的发展过程中,毫无疑问中国占据了领先地位。不仅仅是因为应用了GPU,在系统设计以及架构的安排上也是发挥了一定的作用,在HPC方面,Intel的观点就是对过去的一种延续,一步一步的延续到未来。但是对于NVIDIA公司来说,在中国前三大HPC系统就是因为采用了新的技术,把这个优势应用到最好。只是现在基于CPU GPU的异构架构的程序还很少,不到传统架构软件的10%,这也说明了基于CPU GPU架构的软件市场潜力还很大。在新一轮的变革中,中国跟世界又站在了同一起跑线上面,谁先开发出好的应用软件,谁就可以站在世界的前列。
其他文献
在中国,玩PC或者身在PC行业的人,如果不知道中关村和广州天河,就跟美国人不知道华盛顿、法国人不知道拿破仑一样让人觉得不可思议。这两个名字在整个20世纪末成为中国南北两地最大的PC产业集散地,整个中国的PC产品几乎都来源于此——它们是中国IT产业最早的发源地。直到现在,在IT江湖中,“北中关、南天河”依然如雷贯耳。    下海    2004年5月16日,在四通集团庆祝成立20周年大会上,已经69
如果各位愿意把“少花钱,多办事”或者“花小钱,办大事”的精神用到选购笔记本电脑上,那我们建议大家多了解一下Acer Aspire 4741G。是的,Aspire 4741G的高性价比会让大多数消费者都感到满意。  以我们拿到的官方报价4999元的测试样机为例(具体型号为AS4741G-332G32Mn),虽然其采用的Core i3330M处理器2GB内存320GB硬盘和诸如802.11b/g/n无
相信诸位玩家在购买游戏鼠标时,一般都会着重考虑三个方面,外观、性能和价格。那么,如果此时有一款游戏鼠标拥有酷炫的“弹坑”喷漆外壳,并且具备3200dpi分辨率和500Hz报告率的性能,同时价格还不到200元时,你是否也会怦然心动?  雷柏V15就是这款内外兼修的游戏鼠标,独特的“弹坑”喷漆外壳令人眼前一亮,这种特殊设计在罗技MX518和G1中也曾出现过,不过V15的喷漆颜色显得更亮丽些。它内置了安
对于骨灰级的音频发烧友来说,人世间最痛苦的事莫过于HiFi音响器材太大不方便携带,而便携式数码播放器的音质普遍不佳,很少能满足自己挑剔的胃口。最近我们收到了一款以音质为主要卖点的PMP播放器——七彩虹Colorfly Procket HlFl CK4,不知道它是否能将“音乐宅男们”从封闭的听音室里解救出来?  CK4长方形的机身、圆角设计以及磨砂质感的前面板,显得时尚而不张扬。不同于大多数PMP的
对喜欢听歌和语聊的年轻一族来说,必然离不开一副音质和通话质量俱佳的耳麦。市面上的耳麦产品众多,从几十到几百甚至上千的都有,而对于预算有限的年轻朋友来说,太过昂贵的无法接受,而价格低廉的则音质不佳,因此平衡价格和音质显得尤为重要。近日,现代推出的两款荣御系列耳麦就是不错的选择,能较好地贴合年轻朋友的购买需求。  现代荣御HY-9050MV和DHY-9068MV的外观差异较大,前者外观清新可人,绿色与
还捧着老黄历,坚持玩游戏就要用台式电脑?你说你让ROG、Alienware情何以堪!层出不穷的专属设计,专为游戏打造的笔记本电脑早已拥有了超越普通台式电脑的游戏体验。《星际争霸Ⅱ》、《极品飞车15》、《使命召唤7》……不同类型的游戏都能找到适合它们的笔记本电脑。前面都是针对某个游戏推荐的电脑配件,咱游戏笔记本电脑可不一样,它们可个个都是十八般武艺样样精通,各种游戏通吃的高手。今后出去打比赛,别再带
您是否是高清爱好者?您是否希望和家人一起共享影院式的试听感受?如果答案是肯定的,那这款西部数据WD Elements Play多媒体硬盘就一定要推荐给您。WD Elements Play的实质是一款内置硬盘的高清播放器,最大提供2TB的存储空间,可满足大部分用户存储需求。  该机型以黑色为主色调,前部为西部数据LOGO以及电源指示灯,HDMI、光纤、USB 2.0等接口都设计在了机身的背部。由于设
“……各位老师,哪怕你只是在教普通小学的语文课,也请想想你的教育信息化着力点到底在哪里?把三字经变成课件就好了吗?……你面对的学生,将来怎么使他具备国际竞争力,怎么让他可以迎接信息时代生存下的个性发展,你在信息化上应该给他什么?我相信可能不是我们现在做的课件……回顾过去的12年,在中国基础教育的教育信息化方面,对人类最大的贡献就是制作课件,把传统的知识、经典的知识用课件的方式用到教学方式,把难点、
有这样一家主板厂商,自从诞生以后的二十五年里,就一直坚守在DIY领域,不论是那场冬夜的大火,还是面对铺天盖地袭来的平板、智能手机等各种数码设备,它对DIY的那颗心,一直都执著而不悔。  在个人电脑刚满5岁的1986年4月,以70万元新台币起家,瞄准板卡行业的技嘉科技诞生了。然而刚进入发展期的技嘉,就在1994年遭受重创,一场冬夜大火让技嘉的所有没备付之一炬。但叶培城、马孟明等五位创业元老并没有因此
在上一次的线缆管理文章中(详见2011年1月下刊),我们为大家介绍了如何在一些特定的应用场景下去整理自己的线材,以及关于线缆绕组的一些基本知识。今天,我们将重点为大家介绍一些简单实用的线缆管理工具,以及一些简单却有效的线缆管理DlY技巧。  前文提要:  线缆管理技巧第一招:扎线带和绕线技巧——教你如何绕线  线缆管理技巧第二招:插线板的配置——插线板相关的线缆整理与管理技巧  线缆管理技巧第三招