集成CPU-GPU架构上的列存储连接优化技术研究

来源 :东华大学 | 被引量 : 1次 | 上传用户:arthurpzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,企业数据爆发式增长。如何更好地支持海量数据的存储、分析,已经成为企业关注的重要问题。数据仓库是用来存储、分析海量数据的重要工具。传统关系型数据库以事务操作为核心,而数据仓库更注重对海量数据的存储、查询与分析。相比于行存储技术,列存储技术因其在读优先环境中的优势,被更多的应用于数据仓库之中。由于列存储系统可以支持列的独立存储、压缩和其他操作,列存储更利于读优化操作。集成多核异构CPU-GPU架构已经成为计算机处理器芯片的发展趋势,在商用计算机中,基于集成多核异构CPU-GPU架构的中央处理器已经得到了较为广泛的应用。在这种趋势下,研究数据仓库软件如何利用集成多核异构CPU-GPU体系架构处理器的性能优势极具价值。本文主要研究集成多核异构CPU-GPU架构处理器上列存储系统的连接原语优化技术,并以我们实验室自主研发的列存储系统为基础,研究了如何利用集成多核异构CPU-GPU架构的计算资源和性能优势优化连接操作。主要工作如下:本文首先研究了基于列存储系统的并行连接算法,针对OpenCL编程框架的特点,设计并实现了基于OpenCL的列存储系统连接算法。除此之外,研究了GPU上的数据分组算法,并针对该算法空间开销较大的问题做了相应改进,提出了一种基于分组数统计的GPU数据分组算法。其次,对使用GPU作协处理器加速数据查询操作的方法进行了研究。之后,深入研究了基于集成CPU-GPU架构的流水线协处理方案,并针对其无法动态改变数据配比的问题,提出了一种动态数据分配策略。再次,研究了实验室自主研发的列存储系统,并对其作出了改进,将本文提出的数据分配策略集成到该系统之上,使其可以充分利用集成CPU-GPU架构处理器的计算资源,优化连接操作。最后,使用SSB测试基准,验证了本文提出的方法有效性。实验结果表明,本文提出的方法使得两表连接效率最大提高了33.2%,SSB测试基准的标准查询语句Q1.1的执行时间缩短了9.81%,Q3.1执行时间最高缩短了7.03%。
其他文献
医学图像三维可视化是一种将传统的计算机图形学的相关知识运用到医学领域中,在计算机上对医疗设备获取的二维断层图像,通过图形学技术的处理和转化,根据视觉原理显示为直观
自从曼德尔布罗特(Mandelbort)引入分形概念以来,分形作为一门新兴的非线性学科,受到了学术界的广泛重视。分形理论主要描述自然界与非线性系统中不规则的、具有自相似结构特
在当前信息技术高速发展的后PC时代,嵌入式系统已经广泛地渗透到人们的日常生活等方方面面中。IT技术大融合及“三网融合”加速了嵌入式系统产业化进程。随着家用电器向数字
作为一种生物认证识别技术,说话人识别技术具有远程控制的独特优势,在互联网发展日新月异的今天拥有非常广泛的应用前景。近年来出现的说话人识别主流方法如GMM-SVM, JFA 和
随着网络规模的日益扩大,网络上经常会出现偏离正常网络行为的异常流量。这些异常流量不仅会造成网络性能下降,更严重的会造成网络瘫痪。因此,如何在大规模网络环境下进行网
面向主题是数据仓库的特征之一,面向主题是指数据仓库中的数据是按照主题进行组织的,合理地选取主题是数据仓库设计成功的前提条件。没有正确、合理的主题,就无法合理地组织
无论何时,人们都希望在第一时间得到问题的答案。为此,自动问答一直是人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。随着硬件的强有力支持,以及
伴随着互联网的高速发展,视频数据高效、实时的传输,需要按照一定的视频压缩标准进行编码。运动估计作为视频编码过程中的核心步骤之一,其优劣程度直接关系到视频压缩编码的效率
在计算机图形学领域里,自然景物的模拟是一个重要的研究课题,它在虚拟现实,计算机游戏、影视、广告、视景仿真等领域中有着广泛的应用。在自然景物的模拟中,水的模拟是比较重
随着多媒体与互联网技术迅猛发展,基于内容的图像检索受到广泛关注。然而早期的基于内容图像检索仅仅利用图像的颜色、纹理、形状等特征信息进行图像间相似性判定而无法有效