【摘 要】
:
在列数据库中,连接操作依然是最核心和最耗时的操作,GPU 强大的计算能力可为此提供新的优化手段.基于Fermi 架构,文中提出了新的Hash Join 算法和Sort-merge Join 算法,基本思想是充分利用该架构新增的缓存结构,减少连接操作的cache缺失率.在此基础上,采用CUDA stream 技术,在输出结果较多时可以有效隐藏主存与显存间数据传输带来的延迟,进一步提升算法的执行效率.
【机 构】
:
School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006
论文部分内容阅读
在列数据库中,连接操作依然是最核心和最耗时的操作,GPU 强大的计算能力可为此提供新的优化手段.基于Fermi 架构,文中提出了新的Hash Join 算法和Sort-merge Join 算法,基本思想是充分利用该架构新增的缓存结构,减少连接操作的cache缺失率.在此基础上,采用CUDA stream 技术,在输出结果较多时可以有效隐藏主存与显存间数据传输带来的延迟,进一步提升算法的执行效率.实验结果表明了基于Fermi 架构的Hash Join 算法处理偏斜数据的高效性及Sort-merge Join 算法的稳定性,并且通过比较,这两种算法的性能全面优于基于多核CPU 充分优化的Join 算法,最大加速2.4 倍,在外键分布高偏斜时新的Hash Join 算法的执行速度甚至达到217M 元组每秒.
其他文献
忆阻器是一种可以记忆流经其电荷的无源非线性电阻,在众多领域有着巨大的应用潜力,当前其最直接的用途是作为数据存储的介质,同时它还能用于逻辑操作。本文通过在已有的忆阻器状态逻辑计算方式的基础上,根据通常采用交叉杆阵列结构设计了该逻辑计算方式的并行化,并分析了其进一步扩展的可能性和需要在存储数据结构上的改进,实验结果验证了本文提出的状态逻辑运算并行化的有效性和可行性。
直接模拟蒙特卡罗方法(Direct Simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理,另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应的碰撞网格,能有效解决前一个缺点:针对后一个缺点,本文则基于动态网格的DSMC方法,使用CUDA编写并行程序,将其移植到GPU上以减少计
中科院超级计算环境是整合了包括总中心、分中心和所级中心计算资源的三层架构超级计算环境。为提升超级计算环境的可靠性,提供稳定可靠的计算服务,其容错机制的研究成为超级计算环境的一个研究重点。本文在对容错基本思想及各类计算机容错技术进行充分调研的基础上,提出一种适用于超级计算环境的容错框架,依据该框架给出了不同层次的容错方案,并对不同层次的容错开销进行了分析和比较,验证不同层次容错方案对应用程序带来的影
随着存储技术的不断发展,内存芯片的面积越来越小,容量越来越大,密度越来越高,内存单元发生故障的概率也随之越来越大。根据故障模型,人们设计了许多内存检测算法,其中最为常用的、故障覆盖率最好的是March类算法。为了能够检测到各种故障类型,March算法被设计的越来越复杂,检测时间成倍的增长。另外,所有的算法都是被设计用来检测一个内存芯片内部的单元是否存在故障,他们更适用于在工业制造中对内存条出厂前的
本文以陆面过程模型和基于脚本语言的建模为基础构建了陆面过程建模系统,此建模系统集成观测数据、陆面过程模型、高性能计算、数据处理和分析方法,以及可视化等技术手段,从多角度精确评估陆面特征,为改善陆面过程模型的模拟性能提供指导,更为重要的是为研究者提供一套完整的从数据处理到模拟分析的陆面过程建模系统。并在此系统内针对两种不同的陆面过程模型进行了应用示范,证明了基于脚本语言的建模系统在目前高性能计算环境
进行试验弹对钢靶的侵彻研究并获得侵彻过程中的过载和侵深是保证装药稳定性和引战系统可靠性的关键因素。但以往研究多将试验弹内部的引信结构简化,本文建立引信部位不同简化程度的两种试验弹侵彻模型,提取了引信部位简化模型中引信部件和引信部位细化模型中传感器部件的加速度、速度和接触界面力时间曲线,对结果对比分析,证明模型的合理性,重点阐明结构简化程度对侵彻结果的影响和接触界面力对实际工程的意义。
高性能计算是支撑国家实力持续发展的关键技术之一。论文首先分析高性能计算面临的问题,指出传统高性能计算程序性能优化技术的不足。接着介绍了面向高性能计算程序性能优化的新方法—迭代编译优化。迭代编译优化作为提高机器实用性能的有效手段,对高性能计算至关重要,迭代编译优化技术的研究逐渐成为高性能计算领域的研究热点。最后给出了总结,并针对迭代编译优化开销较大这一问题给出了未来工作方向。
本文说明了如何利用三维并行自适应有限元软件包PHG求解生物分子溶液体系的非线性Poisson-Boltzmann方程及电扩散方程,并介绍了一种解决这类问题的新方法,它将网格生成与自适应计算过程结合在一起,可自动产生合适的网格,避免复杂的曲面网格生成步骤。之前的网格生成工作按照:(1) TMSmesh生成高斯曲面的三角网格; (2) TransforMesh删除自相交的三角网格; (3) ISO2M
单机运行环境难以满足海量空间数据的连接聚集操作对时空开销的需求,集群上的并行计算是高效处理海量空间数据的连接聚集操作的关键。Map-Reduce是云计算中—种应用于大规模集群进行大规模数据处理的分布式并行编程模型,作者分析发现Map-Reduce并不直接支持以既高效又自然的方式来处理具有二次归约特征的并行空间连接聚集操作.因此,提出了—种新的并行计算模型—Map-Reduce-Combine(MR
嵌入式存储体目前已经广泛用于芯片设计,对于很多芯片而言,片上存储体是影响芯片成品率的主要因素,在某芯片内集成了大量的定制存储体D_MM,本文采用内建自修复和存储体冗余技术实现对该存储体的在线测试与修复,两者紧密结合满足了很高的设计频率指标要求,并且能够对MBISR电路进行有效的功耗控制。