面向存储计算分离的云化大规模并行处理数据库缓存系统研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xiaozhi_1100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着虚拟化和云化等技术的发展,计算存储分离架构应运而生,计算存储分离具有很好的扩展性和可管理性。计算存储分离之后,资源按需扩容,使得总体成本降低。同时云化大规模并行处理(MPP)数据库具备海量数据分析的能力,由于其OLAP操作会涉及大量的数据访问并且产生很多的中间结果,在存储计算分离的场景下,每次数据存取都需要访问对象存储,造成了很大的延迟,使得性能显著下降。  针对存储计算分离后云化MPP数据库OLAP操作延迟较大这一问题,本文设计并实现了一个以块为单位的面向存储计算分离的云化MPP数据库缓存系统,能够降低存储计算分离后OLAP操作的延迟,并且针对OLAP操作的特点进行了优化。本文的主要贡献有:  (1)设计并实现了一个面向存储计算分离的云化MPP数据库缓存系统,缓存系统具备如下能力:支持随机读写、支持缓存系统进程之间高效的数据通信、对外提供透明且无限大的缓存空间、支持元数据持久化;  (2)提出了公平性的基于时频的缓存置换算法,解决了多个应用之间缓存空间分配不公平的问题。基于缓存系统的注册机制,动态调整每个应用之间缓存窗口的大小,并且保障了各个应用之间缓存窗口大小分配的公平性。  (3)设计并实现了一个以块为单位的操作感知的缓存数据预取框架,解决了传统缓存系统中缓存命中率低,操作时延高的问题。根据OLAP操作中的顺序操作和特定随机操作进行了优化,对于Hash Join顺序操作提出了异步预读策略,采用了线程池技术预先把未来访问的数据块加载到本地缓存;对于Tape Sort这种特定随机访问操作,提出了“写入序列与读取序列一致”的结论,利用写入序列和读取序列的关系预测未来将要被访问的数据。  大量的实验表明,本文设计的缓存系统达到了设计要求,整体性能达到了不错的效果。在全部是本地的缓存的情况下延迟相比Alluxio降低50%;比不使用缓存时延迟降低69%-81%。缓存系统优化后相比优化前,Hash Join操作的缓存命中率平均提升47%,总的完成时间平均降低26%;Tape Sort操作的缓存命中率平均提升34%,总的完成时间平均降低25%。
其他文献
工作流的概念起源于生产组织和办公自动化领域,其目的是通过将工作分解成定义良好的任务、角色,按照一定的规则和过程来执行这些任务并对它们进行监控,达到提高工作效率、降
门户中间件作为构建、管理、运行企业信息门户的支撑系统,提供了面向表示层的开放集成框架,能很好的集成现有应用,消除信息孤岛,同时具有强大的用户个性化功能。门户开发人员在门
目前DeepWeb是数据库领域研究的热点,开放存取期刊OA(Open Access)作为DeepWeb资源,以其优秀的学术共享理念得以迅速发展。但是OA期刊遍布互联网,“孤岛”现状日益严重,而传
基因组测序技术的发展和质谱技术的进步,使得能够快速地产生大量的蛋白质序列数据,然而相比之下,经典的蛋白质结构测定方法速度却很慢。因此,为弥补测定蛋白质序列和蛋白质结构之
P2P(Peer—to—Peer,对等)文件共享系统从1999年正式出现以来一直在经历着飞速的发展,现在这些系统已经吸引了大量的Internet用户以及占据了大量的Internet流量。最近的测量结
基于生物特征识别的身份鉴别技术提供了一种高可靠性、高稳定性的身份鉴别方式。在各种生物特征识别技术中,人脸识别是一项极具发展潜力的生物特征识别技术,在信息安全、公共安
学位
随着过去几十年勘探技术的发展和油气田大规模的开采,一些较易发现、较简单的油气田已几乎开发殆尽。人们的目标开始转向复杂油气藏。由于复杂油气藏在地质形态上表现为倾角较
二进制翻译技术通过软件手段将一种指令集体系结构(ISA)上的可执行程序翻译到另一种ISA上执行。该项技术可以应用于代码移植、动态优化、错误监测、系统安全等多个领域。  
近年来,由于计算机和互联网的高速发展,信息资源呈现出爆炸式增长,数量上越来越丰富,但同时也给知识获取增加了难度。如何能够对信息进行有效的组织和管理,使之转化为知识,成为知识
图像分割是图像分析、识别和理解的基础。图像分割主要是将图像分成各具特性的区域并可提取出感兴趣的目标的技术,其研究多年来一直受到了人们的高度重视,由于不同待分割图像的