分布式环境下计算结果重用的研究与实现

来源 :东华大学 | 被引量 : 2次 | 上传用户:liyaping121416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展及企业信息化水平的提高,数据的产生量和积累量呈指数增长,如何利用好、管理好海量数据,已成为影响企业决策,驱动价值增长的重要环节。MapReduce模型作为大规模集群并行处理框架,已成为海量数据处理的重要工具。传统数据仓库无法在可接受时间内处理TB级数据,使得基于MapReduce的数据仓库工具Hive应用越来越广泛。由于Hive将查询语句转化为MapReduce工作流,而MapReduce工作流串行作业间需将中间结果写回HDFS供下个作业读取,产生大量I/O和作业启动的时间开销,降低了数据处理效率,且相似查询之间无法共享查询结果,浪费了计算资源。针对该问题,本文对如何重用MapReduce计算结果的方法进行了研究。1.文章介绍了研究背景和研究现状,阐述了海量数据背景下重用计算结果的重要性,并对基于MapReduce的现有研究进行了分析,总结了相关工作的特点和不足;介绍了HDFS的架构和运行原理,分析了MapReduce模型的执行流程,介绍了Hive的优势及HiveQL的语法规则。2.在此基础上,文章介绍了Hive生成抽象语法树及依赖关系的过程,分析连接过程和原理,对基于Hive的计算结果重用的可行性进行了探讨。3.文章详细介绍了重用策略的实现。定义了连接体、连接图、连接子体和重用连接图等,用于描述计算结果的数据结构,并提出抽取计算结果特征的算法。设计实现了计算结果匹配算法,提出单连接体和多连接体重用策略。当有多个计算结果可用时,根据作业数量和所有数据源的记录数之积生成最佳重用方案。对策略的时间复杂度和空间复杂度进行了详细分析。为了提高计算结果的重用概率,提出多键选择、延迟算数运算和语义理解三种方法,并通过实验对其代价进行了分析。介绍了基于作业数量、作业执行时间、重用次数和满足最近查询等需求的结算结果管理方法。4.文章通过实验对文章所提出的策略进行了详实的验证。采用两种基准测试数据集分别对单连接体和多连接体重用策略进行了分析,针对策略可能对初次查询效率产生的影响进行实验验证。通过一系列的对比分析,验证了本文所提出的策略不仅能有效提高计算效率,而且对初次查询的效率影响较小。
其他文献
随着信息技术的迅速普及,计算机网络逐渐成为人们完成相关工作的不可或缺的手段,同时也带来了许多严重的安全问题。日志作为计算机网络系统运行轨迹的真实写照,对于维护系统
计算机技术与测试测量仪器技术的结合,出现了新的测试仪器——虚拟仪器。采用虚拟仪器的软件战略是第三代自动测试系统的发展方向。 虚拟仪器的发展及应用,为本系统的实现提
在面向服务的体系架构中,Web服务作为一种分布式计算模型,在各领域应用集成中扮演着重要角色,如何能够对应用系统进行有效的集成,从而形成更加灵活的应用系统是当前Web服务领
随着信息安全技术的发展,当今在信息安全领域中Rootkit变得越来越重要,Rootkit技术正成为信息安全领域最大的挑战之一,越来越多的研究人员开始涉足Rootkit技术。该技术最早被
随着面向对象技术和分布式对象技术的应用,软件复用技术得到迅猛发展。在当前的软件复用技术领域中,基于组件的软件复用技术被视为较好的软件应用开发技术。论文对软件复用技
电容层析成像(Electrical Capacitance tomography,ECT)技术是20世纪80年代中后期发展起来的一种过程层析成像技术(Process Tomography,PT),具有成本低,快速响应及测量的非侵入性
政策最早以规则、策略、协议的形式应用于计算机及网络的各个领域,包括数据库安全、分布式网络和移动网技术等领域。然而,从政策管理的力度来说,它们只实现了较低层次的政策
远程医疗是通过信息和通信技术应用于远距离健康活动和服务的系统。它通过数据、文字和图像资料的远距离传送,实现医院间的远程会诊。在整个会诊过程中,患者文件的组织管理、传
人脸检测问题研究具有很重要的意义,可以应用到人脸识别、新一代的人机界面、安全访问和视觉监控以及基于内容的检索等领域。视频信号是人类接触的最主要媒体,人类接受的外界
在逆向工程应用中,由于样件局部遮挡或者测量手段的限制,通过测量所获得的原始点云数据往往存在数据缺失而形成孔洞。因而在孔洞点云数据的曲面重构中,需要对孔洞进行修补以