基于Parquet文件的Hive查询优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lanses
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的迅猛发展,全球总数据量的爆炸性增长,大数据已成为备受关注的研究课题。Hive作为最常用的一款数据仓库软件,在Hadoop分布式系统架构上实现了查询处理引擎,然而Hive在进行查询操作时仍然存在查询速度不够理想的缺憾。这一问题会使用户在做数据分析时耗费更长的时间,甚至导致分析处理速度跟不上数据增长的速度,严重制约了人们在大数据领域的发展。当下Hive对于Parquet列式存储文件的查询应用较为广泛。如何提高Hive基于Parquet文件的查询效率是一个尤为重要的课题。在对Hive的查询处理流程进行研究与分析的过程中,找出了某些情况下可以大幅提高Hive查询效率的改进方法。其一是在批量化查询的前提下,通过进一步分析Hive的查询流程,发现在读取数据的过程中,Hive执行了很多次重复的指令,导致了代码路径过长,CPU指令数过多的问题,遂提出了向量化查询的优化思想。此项优化使用向量作为基本操作单元,向量中装载有一批数据,每次操作均是一次性对一批数据进行操作。其二是在查询嵌套列式数据的前提下,通过分析Hive现有的字段剪枝,发现其不能过滤掉结构体中多余字段的问题,并基于此提出了更细粒度化的字段剪枝优化思想,使其能在查询执行之前对结构体中的多余字段进行过滤,避免了查询过程中过滤多余字段的工作,达到提高查询效率的目的。在对这两种优化进行验证的过程中,使用了典型的数据库测试基准以及通用应用场景下的一个典型案例。在生成测试数据后,通过对比优化前后同一个SQL语句执行时间,证实了这两种优化在符合要求的查询中能够显著提高Hive对Parquet文件的查询效率。
其他文献
乙烯和丙烯是石化工业中最重要的单体,其生产主要通过以石脑油或烷烃为原料的热裂解生产过程进行。蒸汽裂解炉是热裂解生产过程的主要装置,该装置是石化工业中生产能力最高,
随着石油资源的短缺和国家排放法规的要求,寻找一种可代替柴油的生物质含氧燃料是解决该问题的主要途径。相比甲醇、乙醇和丁醇等其它醇类燃料,正戊醇具有较高的能量密度、较
当下,社会各界愈发关注企业社会责任这一话题,以企业社会责任为核心的可持续供应链的相关研究亦成为热点问题,国内外学者研究普遍认为企业社会责任水平的提高会对企业经济收
雷达通信融合系统是一种在信号、射频前端和天线层面将雷达和通信系统功能融为一体的智能信息系统,可被广泛应用于智能交通、移动通信、传感网、武器装备等应用领域。本文主
伴随国家间竞争的加剧以及公民权利意识的觉醒,公共服务面临的环境挑战越来越复杂多变,在此背景下,如何更好地适应环境、解决公共服务能力建设中存在的问题成为政府部门亟需
番茄(Solanum lycopersicum Miller)作为典型的喜温性蔬菜,是我国北方广泛栽培的设施蔬菜作物之一。在冬春季温室栽培中,为了保温而减少通风造成的温室内CO2匮乏,进而影响日
随着无人机技术飞速发展,消费级无人机的应用也越来越广泛,但同时也带来了很多的负面影响,为解决近场空域低、慢、小旋翼无人机的安全威胁问题,对无人机的探测和识别研究就显
随着近几年中国移动互联网的飞速发展,互联网正在深刻的改变人们的生产生活方式,其中电子商务平台更是取得了突飞猛进的发展。在电商平台中最为能够吸引用户关注、刺激用户购
发光二极管技术(LED)在当前人类照明领域有着广泛应用,而在LED光组件检测中,由于产品形态多样,标准化程度处于初级阶段,导致其制造过程中检测方法的欠缺,光组件产品质量和一
校长是履行学校领导与管理工作职责的专业人员,其话语权威的大小关系到学校各项工作推进的效率和实施的效果,进而影响学校的发展。目前关于校长权威的研究,形式多为理论探讨,