基于内存的分布式列式数据库缓存管理系统设计与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:huangxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库是日常生产活动中重要的信息存储和检索工具,其设计一直随需求的变化而发展,系统架构从单机扩大为分布式集群,存储介质从磁盘转移到内存,数据组织从行式衍生出列式,而作为数据库重要优化手段之一的缓存技术也无时无刻不在演进。数据库缓存通常分析并结合系统特性,储存历史结果避免相似操作的重复执行,达到加速查询的目的。从缓存粒度层面可以将目前的缓存技术分为三类:Page缓存、Tuple缓存和语义缓存,前两者符合传统数据库的需求,语义缓存因抽象度高而适用面更广,但也因此降低了特定场景的优化能力。在低并发、高数据处理量的联机分析处理OLAP(On-Line Analytical Processing)场景下,如何针对基于内存的分布式列式数据库特点为其设计缓存,是当前热门研究课题之一。本论文以自主研发的分布式列式数据库Goldfish为背景,针对其列数据组织方式和异步推进的分布式计算模型,提出一套分布式物理执行计划语义缓存技术DPPSCache(Distributed Physical Planning Semantic Cache),暂存中间结果,避免重复计算并降低网络数据传输量,加速OLAP类查询。本论文阐述了DPPSCache的缓存组织方式、缓存匹配算法、代价模型和缓存淘汰算法、缓存可靠性,工作内容如下:1.DPPSCache缓存分布式物理执行计划中物理算子的执行结果,利用算子的局部语义和全局语义信息构建缓存特征树,并为其建立索引;2.分析特征点语义匹配和值区间匹配细节,衍生出特征树匹配方法,提出了基于特征树的缓存匹配算法CCTM(Cache Characteristic Tree Matching Algorithm);3.针对分布式列式数据库缓存特点,提出了基于代价模型的缓存淘汰算法RCBR(Reference and Cost Based Replacement Algorithm);4.分布式环境下,内存中的缓存对象难免因节点失效而丢失,因此本文设计了一套缓存可靠存储策略,包括多副本、纠删码和持久化。本论文在Goldfish数据库基础上,设计并实现了一套基于DPPSCache的分布式缓存管理系统,并同开源分布式数据库系统Hive和Spark SQL比较,从测试数据来看,配有缓存的Goldfish不仅提升了原有系统的性能,而且在查询性能方面明显高于对比系统。同时,在当前场景下RCBR淘汰算法要优于传统的最近最少使用算法LRU(Least Recently Used)和最少访问算法LFU(Least Frequently Used)。
其他文献
步进扫描式光刻机是国家“十二五”极大规模集成电路制造装备及成套工艺重大专项中的一项重要研究内容。本文以光刻机双工件台控制系统研究为背景,为满足工件台控制系统中对传
本文在介绍网格的内容及相关技术的基础之上,针对影响网格的服务质量和性能的核心问题:任务调度技术,进行了深入研究。扩展了蚁群算法的应用领域,提出了一种改进的蚁群算法解
随着互联网上教育资源的快速增长,越来越多的用户通过网络进行学习研究。传统的信息检索采用的是基于关键字匹配方式,检索结果准确率较低,因而用户要从海量的资源中检索到需要的
基于ZigBee的无线传感器网络正以其所需功耗和成本比较低的独特优点被广泛的应用于生产和生活中,其安全问题也变的越来越重要,但往往较高的安全机制需要进行较为复杂的算法处
随着网络信息化的建设,多种多样、形式各异的网络应用服务不断涌现,同时也产生了错综复杂的业务流,这导致网络的分布化、复杂化、不合作和异构化越来越明显,由于传统的网络测量方
虚拟植物是以计算机技术为中心,建立在植物学、生态学、应用数学、信息科学和计算机学、可视化技术等基础上的多学科交叉研究。它是以植物个体或群体为研究对象,对植物的几何形
随着计算机网络的飞速发展和广泛应用,基于网络的分布式软件开发技术已成为当前应用软件开发的主流技术。然而,分布式软件开发面临着操作系统平台多样性、网络的不稳定性等很多
膝关节是人体最重要、最复杂的关节之一,也是病发率最高的一个关节。由于其在临床治疗、医学研究、虚拟手术、生物机械设计等领域的重要意义和应用价值吸引了大量学者对其进行
近年来,随着移动互联网和多媒体应用的飞速发展,图像数据已经成为网络数据的重要部分,对网络中海量的图像数据进行快速检索和存储成为我们当前面临的一个挑战。图像哈希技术
随着物联网应用的推进,基于IEEE802.15.4标准的无线个域网络(Wireless Personal Area Network, WPAN)得到广泛的应用。为了充分利用IP网络的充足资源,WPAN与IP网络互联互通的