MPMD程序CCSM3的负载均衡分析

来源 :2011年全国高性能计算学术年会(HPC china2011) | 被引量 : 0次 | 上传用户:user180
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  基于MPI消息传递的MPMD并行计算模型非常复杂,通常由一组SPMD程序和耦合器组成。这种MPMD计算模型在气候科学计算中十分常见,因此有效的性能分析工具和方法对于开发人员具有非常实际的意义。本文以MPMD程序CCSM3为例,着重分析了MPMD程序与SPMD程序最显著的区别——耦合器上的性能事件,以耦合器为中心,去发现和定位不同的子程序之间的负载均衡问题,将复杂的MPMD程序的进程间关系简化为SPMD程序的交互及SPMD程序内部的负载均衡问题,从而帮助开发人员和性能调试人员更准确地发现程序中的负载不均衡现象,对程序的设置或者算法进行优化和改进。
其他文献
根据交通流的动态变化情况,实时优化交通信号配时,是减少交通延误,提高交通效率的有效方法.为减少信号优化时间,提高时效性,提出一种并行化的交通信号对比分析算法,该算法首先根据专家经验和交通管理常识设定一定的信号变化区间,然后针对该区间给定变化区间△,依次给定相应的信号配时策略,然后将每一种信号配时策略分配给集群系统中的一个计算节点,由各个计算节点分别进行仿真运算,最后由主节点聚合分析,对比给出最优信
灰度弥散模型被广泛应用于模拟星模拟器的成像过程。在实际问题域中,该模型需要巨大的计算能力以完成繁重的数值计算,而目前图形处理单元(GPUs)已经发展成为一种有效的数值处理平台,对于计算密集型模拟具有很好的加速能力。本文设计并实现了GPU平台下,基于统一计算架构(CUDA)的并行灰度模型,可应用于大规模星模拟器的快速灰度模拟。首先分析了该模型具有的双重并行特性并采用CUDA模型模拟其良好的数据并行特
稀疏矩阵向量乘(SpMV)是科学计算中最重要的核心算法之一。理论分析和实际测试结果都表明,SpMV属于访存密集型应用。由于目前主流编译器尚不能充分利用现代处理器的访存特性,SpMV对带宽利用率仅为10%。本文通过探索现代处理器的访存特征,使用单指令流多数据流(SIMD)对SpMV进行流水线访存优化。实验表明与标准SpMV相比,优化后的SpMV在Intel Nehalem和SandyBridge架构
增强信誉机制对信誉信息的有效聚合能力,实现可靠的信任评价是信誉系统成功的基础。已有的基于局部信誉信息的信誉系统难以有效处理节点的复杂策略不诚实推荐行为,可能把提供诚实推荐的节点错误划分为不诚实节点。对此,提出了一种可信度增强的信誉机制CERep,节点基于自身经验和来自其它节点的推荐实现基于信誉的信任评价。节点基于自身的经验产生的直接信任评价,包含直接信任评价值和关于此评价值的信心因子。信心因子的计
本文提出并测试一种基于这类集群架构的多层次算法。算法的可扩展性通过两层区域分解算法实现,而GPU的性能由基于光滑聚集的代数多重网格法获得。本文采用32 CPU/GPU求解差分离散后达三千万未知数的偏微分方程。
流管理技术是深度报文检测技术的重要组成部分,是网络入侵检测系统对数据流进行应用层协议分析的基础。为了优化高带宽网络环境下报文流管理的性能,本文提出了一种基于多核NPU的硬件协处理方案,实现了一块流接口卡。经试验表明,该流接口卡处理TCP报文的能力可以达到3.85Gbit网络的线速。
大规模并行计算机系统互连网络的设计对并行程序执行效率有重要影响,当前千万亿次计算机系统拥有上万个节点,给互连网络的性能带来新的挑战。然而,目前互连网络性能研究大多考虑消息目的地均匀分布等简单负载模型,这同真实并行应用的网络负载存在较大差异。本文首先在简单负载模型的基础上,增加考虑局部通信、热点通信等因素,研究更接近真实网络负载特性的复杂负载模型。其次基于此前对互连网络建立的数学模型,扩展了一个微片
双时钟FIFO被广泛用于将一个时钟域的数据安全地传送到另一个异步时钟域。本文详细介绍了一种使用Gray码指针的多时钟域FIFO技术,在测试“FIFO满”或“FIFO空”条件之前将Gray码指针同步到不同的时钟域。FIFO的存储器核可采用双端口SRAM、Latch或触发器实现。本文针对不同存储器核实现技术,分别说明如何对该异步电路进行门级仿真和静态时序分析。
云计算的蓬勃发展,引起了数据中心规模的不断增大,从而对数据中心的能源消耗提出了严峻的挑战。针对这一问题,本文探索低功耗处理器在数据中心的适用性来缓解数据中心能源缺乏的现状。文中根据数据中心的两种典型应用——Web 搜索和社交网络的应用特点,使用Linpack 和Graph500来评估系统的性能。在此基础上,我们发现ATOM机群在数据中心计算密集型应用(比如PageRank计算)中应用潜力较低;在数
波动方程叠前深度偏移是当前地震成像中的一种主流方法,但其计算效率较低。本文利用GPU大规模并行计算优势对其加速,形成CPU\GPU异构协同并行模式下的叠前深度偏移算法,并进行优化,大大提高了计算效率。在Nvidia S1070上进行实际资料测试,最终得到40倍以上的加速比。