多核体系结构上迭代方法的通信与计算比分析

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户：lck2000

【摘要】

：

　　迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法。迭代方法的并行可扩展性能取决于迭代过程中通信与计算开销之比。稀疏矩阵与向量的乘积(SpMV)、向量与

【作者】

：

XUXiao-Wen[1]徐小文[2]MOZe-Yao[1]莫则尧[2]

【机构】

：

High Performance Computing Center,Laboratory of Computational Physics,Institute of Applied Physics a

【出处】

：

2012全国高性能计算学术年会

【发表日期】

：

2012年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法。迭代方法的并行可扩展性能取决于迭代过程中通信与计算开销之比。稀疏矩阵与向量的乘积(SpMV)、向量与向量的内积(Dot)是迭代方法的两个基本运算，分别需要局部点对点通信和全局规约通信，是影响迭代方法并行可扩展性能的主要瓶颈。多核体系结构需要并行迭代方法适应更细粒度的并行计算，通信与计算比对并行性能的影响更为突出。针对多核体系结构特征，本文分析并行迭代方法的通信与计算比。具体地，引入渐近规模，即满足加速条件的计算规模下界，来反映并行迭代方法适应细粒度计算的能力，并由此刻画通信与计算比。基于此，在一台包含128 个双路四核计算节点的并行机上(共1024 个CPU 核)，分别基于纯进程并行(MPI)和进程/线程混合并行(MPI/OpenMP)，分析了几类常用迭代方法的通信与计算比。数值结果表明，基于MPI 的纯进程并行性能受限于内积计算的渐近规模，难以适应多核体系结构上的大规模计算。基于MPI/OpenMP 的进程/线程混合并行可缓解进程间的MPI 通信开销，降低渐近规模，改善并行可扩展性能。基于这些结果，从迭代方法的算法设计和并行实现等方面讨论了面向更大规模的多核系统，降低通信与计算比的途径和方法。

其他文献

基于分布De Bruijn图遍历的基因拼接算法的并行构建和化简方法

　　目前基因拼接软件中应用最广泛的技术是基于De Bruijn图的基因拼接算法.随着第二代基因测序仪的大量使用和基因测序在工业中的广泛应用,常常需要对长达数十亿bp长度的基

会议

一种基于稀疏描述的并行人脸识别算法

　　在人脸识别领域中，最近提出的快速而又简单的稀疏描述人脸识别算法(SR)能够得到很好的识别效果，但算法依然有提高的空间。为了在人脸识别中用较少的时间得到很好的识别精度

会议

稀疏描述人脸识别算法并行计算时间复杂度虚拟样本识别效果识别精度

用于时域电磁场模拟的可扩展三维求解器

　　本文研究了一种用于三维时域电磁场模拟的可扩展求解器.该求解器基于非结构网格上的非连续伽辽金方法，并利用定义在四面体上的多变量拉格朗日多项式高阶节点基对单元内的

会议

时域电磁场模拟可扩展性三维求解器周期性边界条件拉格朗日多项式伽辽金方法

龙芯3号处理器多核虚拟化技术研究

　　MIPS处理器是精简指令集(RISC)处理器中的一个重要代表，通常应用于嵌入式系统中。近年来，随着MIPS处理器性能的大幅度提升，其应用渐渐的扩展到了高性能服务器领域。龙芯3号

会议

DRR:一种多维案例检索优化算法研究

　　基于本体的案例检索系统中,由于数据库中的案例数量随着时间的推移而成倍增加,案例检索的效率不断降低。本文提出了一种多维案例检索算法DRR,该算法通过将多维空间案例点

会议

DRR案例检索系统检索优化空间点准确率检索效率二维检索算法

曙光6000全局集合通信芯片的可测试性设计与实现

　　本文结合曙光6000全局集合通信芯片的结构特点与测试需求，为该芯片制定出了一套完整的可测试性设计(DFT)方案，包括普通扫描、实速扫描、存储器内建自测试(MBIST)、边界扫描

会议

计算化学软件应用运行特征分析

　　本文提出了一种快速分析计算化学类应用运行特征的方法，准确提供F/M(浮点计算量与内存访问的比值)和F/C(浮点计算量与网络通信量的比值)等数值结果，通过定量数据确定应用类

会议

计算化学软件应用运行特征计算量网络通信量源代码级应用类型应用程序

一种高性能并行入侵检测框架

　　网络流量的不断增长和网络攻击形式的多样性，使得网络入侵检测系统(NIDS)变得越来越复杂。基于单引擎检测的NIDS 靠辅助硬件和改进检测算法来提高处理性能，已无法适用10G

会议

云计算环境下基于主副版本的多DAG调度算法

　　针对云计算环境中多个DAG科学工作流的可靠调度问题，提出一种考虑处理机链路通信竞争的、动态多DAG分层调度算法(CCRH).算法首先使用通信竞争模型描述处理机之间通信，然后

会议

多核处理器典型并行算法性能分析

　　目前的处理器依赖于在片上集成多个处理核心来获得性能提升，以此为硬件基础的并行编程模型需要通过屏蔽底层并行实现细节，充分发挥多核优势。本文选取了Berkeley并行计算前

会议

多核体系结构上迭代方法的通信与计算比分析

与本文相关的学术论文