面向大规模分布式列式数据库的查询优化器设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wc836952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,如何实现海量数据的快速存储和分析成为数据库领域研究的热点,具有良好性能的分布式数据库应运而生。传统的分布式数据库往往采用行式存储,计算效率和存储效率较低。分布式列式数据库将每张表的每个列切片后分开存储,此方式可充分利用分片数据的相似性进行高效地压缩和提取,在计算时也能有效地利用处理器的并行处理能力加快计算速度从而提升硬件资源的利用率。本文针对分布式列式数据库场景,设计并实现了一个面向联机分析处理(Online Analytical Processing,OLAP)的查询优化器,目的在于解决复杂查询场景下的查询优化问题,加速任务的执行,同时高效地利用硬件资源。本文的主要工作内容如下:1.研究对比行式数据库和列式数据库的查询优化器,设计分布式列式场景下的查询优化流程,完成从SQL语句解析到分布式执行计划分裂与调度过程的设计与实现;2.根据列式计算特性,设计并实现了一整套相应的算子,尤其在分组聚合等复杂语句的分布式调度和执行上,设计出基于列式场景下的针对性解决方案,提高算子之间的并行度,减少数据传输开销,实现查询结果的快速响应;3.考虑编译执行技术在算子执行时带来的性能提升,以及列式场景的数据分布,设计相应的调度算法,为执行引擎提供算子融合建议,提升算子的计算效率。最后,本文从查询优化器的功能与性能两方面进行测试,验证其可用性与优越性。使用本文所设计的查询优化器的数据库在单表扫描、多表连接、分组聚合、排序以及复杂查询等方面的查询延迟均只有Spark SQL的几分之一甚至十几分之一。
其他文献
国内对便捷式网点检测的研究很少,市面上现有的便携式网点测量仪器大多都来自国外,价格较高。随着智能手机的普及和性能的提高,手机能高效地完成很多图像处理的算法,但是基于
分类问题作为数据挖掘技术中的研究热点之一,其应用遍及各行各业。现有的一些分类方法,一般基于平衡的训练样本,因而它们对平衡数据的分类能取得较好的分类效果。然而,在实际
目的:评价两种不同肠道准备方法对老年结肠息肉高频电切术的效果.材料与方法:将118例年龄≥60岁的结肠息肉电切术患者随机分成观察组和对照组,观察组58例口服和爽(聚乙二醇电解
<正>目前中国股市的机会非常值得珍惜,因为,目前正好是大力倡导价值投资的时机,这对投资者而言也是好事。但如何践行价值投资则是非常关键的问题。笔者认为,在中国做价值投资
初中美术课堂教学呈现多元化特征,教师在教学目标、教学方法、教学活动等方面展开创新设计和探索,体现课堂教学的多项化、主体化、动态化,为课堂教学提供更多成长点,促进学生
1.前言以往对于高炉生产当中经常遇到的一些反常现象,像炉料透气性恶化;原因不明的崩悬料;风口大量损坏;和频繁结瘤等异常现象一直没有搞清楚,近年来查明;这是原料中碱金属(
矿产资源开发活动不可避免的破坏了自然界的生态平衡,其带来的环境问题不可忽视,因采矿导致的地质灾害和生态破坏,已经严重危及到人们的生命安全和社会经济的发展。开展矿产资源开发利用情况及矿山环境质量等遥感调查和监测工作,进而进行矿山环境评价,为自然资源部和各省自然资源管理部门制定矿产资源规划,维护其可持续开发利用,维护采矿秩序,全面整治采矿环境提供技术支持和决策依据。论文依托于“辽宁省矿产资源开发环境遥
在保持HRT、DO、pH值等参数基本不变的条件下,研究了不同进水COD浓度和C/N值对膜泥法一体化OCO工艺脱氮除碳效果的影响。研究表明,一体化OCO工艺对BOD5、COD均具有很好的去除
海洋产业结构演进不同于传统陆地产业结构演进路径,它存在着特殊规律性。舟山群岛新区是我国第一个以海洋经济为主题的国家级新区,海洋经济特性明显。本文采用三轴图分析方法