论文部分内容阅读
E级高性能计算系统的节点规模将达到十万量级,高性能互连网络在性能、扩展性、成本和功耗等方面都面临严峻挑战。在成本和功耗约束条件下,单一追求性能最优的设计方法不再适用,实现更高的性能功耗比和性能价格比成为互连网络重要的设计目标。针对这一目标,本文围绕增强高性能互连网络的通信性能、可扩展性,降低系统的成本和能耗需求,开展两项研究:1)针对超高端口带宽(如400Gb/s)条件下路由器端口数目受限的问题,本文开展了基于低维度路由器/交换机的直接网络和间接网络结构研究,通过应用通信模式与网络结构的协同设计,最优化网络性能功耗比;2)针对异构计算节点内主处理器成为通信瓶颈的问题,本文开展了节点内互连机制研究,最优化节点内通信效率。 本文的创新性工作包括: (1)根据大多数应用局部通信度小于10的特征,本文提出了以Mesh/Torus直接网络为局域子网,子网间全互连的层次化直接网络结构Hyper2DMesh、Hyper3DMesh和Hyper3DTorus,大幅降低了单路由器端口数目需求,并缩减了全系统网络端口数量。此外,为发挥网络的性能,本文针对上述拓扑的结构特征提出了两类最短路径路由算法。仿真结果显示,在45K节点规模下,相比Torus,Dragonfly和PERCS网络,Hyper3DTorus的局部性应用流量吞吐率可达75%,能耗效率是Dragonfly拓扑的4倍,证明了Hyper3DTorus拓扑具有良好的可扩展性和能耗效率。 (2)针对大规模系统中,胖树拓扑面临的核心交换机端口数量多和系统成本过高等问题,本文提出了一种融合胖树和全互连拓扑的层次化间接网络结构HyperFatTree,有效降低交换机端口数目。基于拓扑结构特征提出最短路径路由算法,并针对负载不均衡应用提出非最短路径随机路由算法,在降低系统成本功耗的同时,满足不同应用通信特征的性能需求。仿真结果显示在83,232节点规模, HyperFatTree吞吐率为65%,与胖树拓扑5K节点规模的性能相当,系统规模扩大80倍而性能仅下降5%,证明了其平滑扩展能力远胜于胖树。此外,在局部性由弱到强的三种典型应用流量下,HyperFatTree的能耗效率分别达到Dragonfly拓扑的3至7倍以上,证明其达到较高的性能功耗比。 (3)为实现异构计算节点内多处理器间的高效直接通信,本文提出了一种低开销的网络接口控制器设计:1)基于PCIe扩展的网络通信协议,突破了PCIe原生协议的扩展性限制,降低了I/O与网络协议间的转换开销;2)提供用户级通信接口,并面向MPI编程模型抽象出高效通信原语,实现通信过程全卸载。FPGA原型系统的实验结果显示,节点内最低通信延迟为1.242μ s,有效数据带宽可达3.19 GB/s。