高精度气动模拟在天河1A-HN超级计算机系统上的CPU/GPU异构并行实现

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户：z174433854

【摘要】

：

【作者】

：

CAO Wei 曹维徐传福 XU Chuan-fu ZHANG Li-lun 张理论 CHE Yong-gang 车永刚 WANG Yong-xian 王勇献 LIU Wei 刘巍刘化勇 LIU Hua-yong WANG Zheng-hua 王正华

【机构】

：

School of Computer,National University of Defense Technology,Changsha 410073,China

【出处】

：

2012全国高性能计算学术年会

【发表日期】

：

2012年11期

【关键词】

：

计算流体力学异构系统并行计算气动模拟

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文在CPU/GPU异构并行体系结构下,就三维Navier-Stokes方程求解的高阶精度多块结构网格气动模拟计算流体力学(Computational Fluid Dynamics,CFD)程序的异构并行计算方法进行了研究,并在国家超级计算长沙中心的“天河IA-HN”上加以实现.该CFD程序时间格式为隐式雅克比迭代法,空间格式为高阶steger-warnung迎风格式.该CFD并行程序在“天河IA-HN”平台上实现了MPI+CUDA两级并行,测试结果表明采用MPI并行能获得84.2％的并行效率,相比单个Intel Xeon X5670核,采用64个节点的MPI+CUDA并行加速比最高为166.46倍.

其他文献

基于内存缓存的异步检查点容错技术

高性能计算机系统规模越来越大，系统可靠性问题越来越严重。检查点技术是最典型的容错方法，但是因为并行文件系统的性能提高相对缓慢，数据写带宽低，传统检查点方法产生了严峻的性能问题。针对当前计算机系统计算和存储资源丰富，而并行文件系统写带宽提高相对滞后的特点，本文提出基于内存缓存的异步检查点容错技术，传统的检查点技术被划分为两步：检查点文件首先被缓存在计算结点的局部内存，然后使用一个独立的帮助任务将数据

会议

高性能计算机系统异步检查点容错技术内存缓存

异构系统中DAG任务调度的双螺旋结构遗传算法

任务调度问题是一个NP完全问题,基于启发式的方法通常被用来求解次优解,其性能在很大程度上依赖启发的成效,在复杂问题时可能会产生不理想的结果.鉴此,根据DNA 双螺旋结构模型,提出了一种异构计算系统中DAG 任务调度的双螺旋结构遗传算法(DHSGA),DHSGA 算法将GA 算法和启发式方法有机的结合,首先针对DAG 任务图的数据依赖关系,采用启发式方法,控制GA算法的交叉与变异操作合理改变一个染色

会议

异构计算系统任务调度遗传算法加权有向无环图

一种基于GPU的并行离散事件仿真存储管理算法

由于处理能力强且成本功耗相对较低，利用GPU运行仿真应用可获得成本和性能的双赢。在基于GPU的并行离散事件仿真中，动态不规则的存储空间需求以及深度并发的存储空间分配请求等因素导致仿真事件的存储管理十分困难。针对这一问题，提出了一种基于GPU的并行离散事件仿真存储管理算法。首先分析仿真内核函数的仿真事件存储管理需求，提出存储管理算法框架并建立需求模型，进而推导出该模型下最优的存储管理算法，最后对算法

会议

并行离散事件计算机仿真存储管理算法图形处理器

基于多核集群的JASMIN下并行Sn扫描算法的优化

并行流水线Sn 扫描算法是在非结构网格上求解粒子输运方程的一种重要方法。本文在分析JASMIN框架下的并行流水线Sn 扫描算法的基础上，在多核集群平台上，算法并行性，通信效率，均衡负载等几方面，提出了一种优化算法。实验结果显示，与原JASMIN 的并行流水线Sn 扫描算法相比，优化算法在单个处理器上性能平均提高30％，在可扩展性上，当处理器的总核数从12 增加到384 时，加速比始终呈线性，也优于

会议

并行算法离散纵坐标法并行Sn扫描算法多核集群

计算多项式函数的高效可靠数值算法库

当前在高性能计算机平台上，大规模、大尺度、长时程数值计算由于浮点计算的舍入误差累积效应，常导致不可信的数值结果。于此同时，多项式函数广泛应用于大规模工程科学计算的各个领域，快速可靠计算多项式函数值在高性能计算中显得尤为必要。本文运用无误差变换理论，从浮点运算代码层面上，分析舍入误差累积效应及其在计算多项式函数值算法中的代数结构和统计特性，进而设计误差可控的补偿数值算法。以此为基础构建了计算单变量和

会议

高性能计算多项式函数数值算法库浮点运算舍入误差分析

可扩展的多块协调拼接网格并行支撑软件模块及其应用

本文在JASMIN框架中设计实现了多块协调拼接网格并行支撑软件模块。该模块针对多块协调拼接网格并行计算中的通信性能瓶颈问题，设计实现了网格块间关系统一描述算法，及网格片间统一通信调度策略，有效地解决了通信性能瓶颈问题。同时该模块封装了数据分布存储、数据通信等并行计算细节，提供了规范接口，能够支撑用户简便地实现多块协调拼接网格并行计算。测试表明，该模块具有很好的并行性能，可以支撑应用程序扩展到上千核

会议

多块协调拼接网格软件并行计算通信性能软件模块

多核处理器典型并行算法性能分析

目前的处理器依赖于在片上集成多个处理核心来获得性能提升，以此为硬件基础的并行编程模型需要通过屏蔽底层并行实现细节，充分发挥多核优势。本文选取了Berkeley并行计算前景报告中指出的两个典型应用，高级加密算法AES和矩阵相乘Strassen算法。通过研究基于OpenMP的多核编程模型在进行典型应用加速时影响性能优化的多种因素，包括划分任务的合理性、核间通信量以及共享数据访问的解决方式等。基于Ope

会议

多核处理器并行算法性能分析

云计算环境下基于主副版本的多DAG调度算法

针对云计算环境中多个DAG科学工作流的可靠调度问题，提出一种考虑处理机链路通信竞争的、动态多DAG分层调度算法(CCRH).算法首先使用通信竞争模型描述处理机之间通信，然后分别计算主副版本任务的最早完成时间，并限定所调度的处理机单元，对多个DAG工作流任务使用动态分层方法，并计算每个DAG的不公平程度因子.算法有效解决了当多个DAG中任务的权值相差较大时，之前到达的DAG不会因为剩余任务迟迟得不到

会议

云计算资源调度算法通信竞争

龙芯3号处理器多核虚拟化技术研究

MIPS处理器是精简指令集(RISC)处理器中的一个重要代表，通常应用于嵌入式系统中。近年来，随着MIPS处理器性能的大幅度提升，其应用渐渐的扩展到了高性能服务器领域。龙芯3号处理器是MIPS架构的典型代表。在目前的服务器研究领域中，多核技术是一项重要的技术指标，而虚拟化技术是另一项重要的技术指标。当前，虽然虚拟化技术得到了快速发展，但是龙芯3号处理器上的虚拟化技术却鲜有成果。基于龙芯3号处理器的

会议

处理器多核虚拟化技术精简指令集

多核体系结构上迭代方法的通信与计算比分析

迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法。迭代方法的并行可扩展性能取决于迭代过程中通信与计算开销之比。稀疏矩阵与向量的乘积(SpMV)、向量与向量的内积(Dot)是迭代方法的两个基本运算，分别需要局部点对点通信和全局规约通信，是影响迭代方法并行可扩展性能的主要瓶颈。多核体系结构需要并行迭代方法适应更细粒度的并行计算，通信与计算比对并行性能的影响更为突出。针对多核体系结构特征，本

会议

高性能计算机多核体系结构迭代方法并行可扩展

高精度气动模拟在天河1A-HN超级计算机系统上的CPU/GPU异构并行实现

与本文相关的学术论文