【摘 要】
:
The Unified Memory in CUDA 6.0 is one of the most significant update in the history of CUDA.Before CUDA 6.0,existing programming model for GPU computing relies on programmers to explicitly manage data
【机 构】
:
Center for High Performance Computing, Shanghai Jiao Tong University
论文部分内容阅读
The Unified Memory in CUDA 6.0 is one of the most significant update in the history of CUDA.Before CUDA 6.0,existing programming model for GPU computing relies on programmers to explicitly manage data transfers between CPU and GPU and manage memory coherence.While Unified Memory provides a new CUDA programming model that defines a new managed memory space in which CPU and GPU see a single coherent memory image with a common address space.The underlying system manages data access and locality without the need for explicit memory copy calls.This paper is about the influence on application performance caused by Unified Memory and analyzing the underlying implementation.We studied Diffusion 3D Benchmark,Parboil Benchmark Suite,and the Matrix Multiplication from CUDA SDK Samples as supplement and ported these benchmarks to Unified Memory version.The evaluation is based on NVIDIA Kepler K40 and Jetson TK1 by comparing the performance between Unified Memory version and original version.K40 is the latest and fastest GPU with Kepler architecture,and TK1 is the first mobile processor built on the same Kepler architecture which shares a 2 GB main memory with CPU and GPU.This paper shows that Unified Memory causes at most 10% performance loss both on K40 and TK1.Furthermore,we use NVIDIA Visual Profiler to dig into the underlying mechanism of the Unified Memory.Finally,we state the reason for performance loss.
其他文献
针对大规模系统域网络如何有效监控大规模网络流量、发现网络性能瓶颈和潜在故障点,为网络性能优化提供支持成为新的研究课题,本文首先提出了针对系统域网络的性能管理体系结构SPMA,SPMA采用了松耦合的分层结构,通过各层之间的协同实现性能管理的自动化和可操作性,在此基础上提出了一种网络性能评估模型NPEM,解决大规模网络中对现有网络设备性能状况无法正确评估,对网络运行状态无法进行有效预测的问题,进而提出
3维蒙特卡罗器件模拟计算量大,计算量随网格与粒子数增加而急剧增加.通过分析3D蒙卡模拟加速热点和进一步可并行性,研究有效电势方法的集成众核并行方案;研究粒子自由飞行、统计模拟信息、计算表面粗糙散射等热点并行方案,最终实现基于CPU/MIC的三级并行3维蒙特卡罗器件模拟软件.实验结果显示三级并行比单级并行获得更好的性能;当提高模拟精度时,三级并行蒙特卡罗模拟对单级并行加速比增加.
偏微分方程的并行求解,关键问题之一是网格划分,它不仅要求每个进程拥有相等的计算负载,同时要求有良好的划分质量,以减少进程间通信.在自适应有限元计算过程中,网格/基函数不断调整,会导致负载不平衡,必须动态地调整网格分布,从而实现动态负载平衡,本文研究了小同的负载半衡方法,并在并行自适应有限元平台PHG中实现.数值实验表明动态负载平衡算法具有很高的划分质量,运行速度快,可有效划分网格并减少运行时间.
提出一类无矩阵Newton–Krylov-多重网格(MF-NKMG)法,在该方法里,实现矩阵向量乘运算并不需要显式地构造和存储Jacobian矩阵.对Jacobian方程组,采用一种带有多层分块磨光算子的无矩阵多重网格法进行预条件处理.对于强非线性问题,通过采用参数/网格递增技术可提高算法的整体收敛性.数值结果表明MF-NKMG方法可有效求解大Reynolds数的定常不可压缩流动问题,并在数百个处
本文针对包含数百个变量和数千个操作的复杂模板计算进行优化.选择了在弹性波建模中最复杂的方法之一——加权近似解析离散化(WNAD)方法的核心作为目标应用,探究复杂模板计算在GPU平台上的优化方法.除了包含在缓存中数据重用和调节并行度等之外,还新增加了基于图的代码变换以及指令重排,使得各种系统资源得到平衡的配置和使用,以达到最佳的计算性能.其中,通过提取和变换源程序中的计算的表达式图,能够调整寄存器用
As Cloud Computing becomes more and more prevalent, much more sensitive IT industry data are being centralized in cloud. Considering secure protection of privacy, it is vital not to sacrifice the conf
对流扩散方程是一类典型的偏微分方程,其并行求解方法对其他微积分方程的并行求解具有借鉴意义.本文对对流扩散方程的并行求解方法进行综述,分为显式直接并行、隐式迭代并行、交替分组显式并行和Monte Carlo并行四种并行求解方法,对其中的涉及的计算原理进行描述,给出示例,并指出进一步研究方向.
二维三温能量方程的求解是惯性约束聚变(ICF)的核心问题,高效并行的计算方法将能更快的推进ICF问题的研究.本文在现有的基于MPI消息编程模型的二维三温能量方程离散求解的并行算法的基础上,通过使用集群通信函数等MPI优化技术,改进现有的并行算法,并在此基础上提出了基于MPI+OpenMP混合编程模型的并行算法,取得了更好的加速比.
在遥感图像仿真中,为了定量模拟并分析平台抖动、探测器电子特性、大气衰减等因素对遥感成像质量的影响,需要有效计算遥感系统的调制传递函数(Modulate Transfer Function,MTF),并将其快速作用到仿真图像上.然而,由于遥感仿真图像的大数据量特性以及MTF退化包含多个计算密集型算法,使得计算效率成为一个瓶颈问题.为此,本文根据已有研究提出的MTF计算模型,分析了遥感仿真图像MTF退
在大规模三维复杂流动数值模拟中,针对加入大涡模拟湍流模型的多弛豫时间模型格子Boltzmann方法(MRT-LBM),分析了从网格划分到流场计算整个过程的可并行性,并结合分布式集群的特点,采用MPI编程模型,开发出适合于大规模分布式集群的并行算法,神威蓝光超级计算机上的测试结果表明,该并行算法在十万核量级上仍具有良好的可扩展性.