MapReduce中的数据访问性能优化研究

被引量 : 0次 | 上传用户:qq616009003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce编程模型是大数据时代海量数据处理的核心技术,在各行业各领域得到了广泛应用。MapReduce计算框架屏蔽了以往并行程序设计时的底层复杂操作,为开发者提供了一种硬件透明的开发环境,使开发者专注于云计算的具体应用,提高了开发效率。尽管MapReduce自身有着以上优势,但由于MapReduce计算框架屏蔽了集群结点的异构性,用户作业的输入数据存储在HDFS之上以及Map任务和Reduce任务并发执行时的同步和数据共享的开销较大,当前的MapReduce系统并不能完全满足大数据时代对计算性能的需求。MapRedue计算框架基于结点的计算能力和任务各阶段的比例相同及集群负载不变的策略调度任务,这使异构环境下的Map任务并发执行效率低下。对此提出了基于任务执行历史信息和数据局部性的任务预测调度算法,将任务分发到最好的结点上执行。Map任务需要数据时才向HDFS发请求,HDFS的流式访问特点使数据从存储位置加载到结点内存会产生较大的时间延迟。对此设计了Map任务的数据预取技术,将输入数据提前从HDFS中加载到运行结点的内存,使计算和数据传输同步进行,提高Map任务的执行效率。Map任务输出全部中间结果后Reduce任务才能开始执行,Reduce任务向Map任务所在结点拉取中间数据,这种方式增加了Reduce任务等待数据的时间和中间数据的传输开销。对此,提出了管道式传输技术,先对Map产生的中间数据进行聚合后缓存到本地,然后再通过管道传输到Reduce任务,提高了中间数据的传输效率。将提出的两种优化技术集成到MapReduce框架中,通过Benchmark的测试表明,Map任务的预测调度和预取技术降低了访问输入数据的开销,中间数据的管道式传输机制提高了Reduce任务访问数据的速度,最终的实验结果验证了本文所提方案的有效性。
其他文献
随着当代交通的飞速发展和桥梁保有量的增加,越来越多的桥梁因为各种原因需要被拆除或者拆除重建,爆破拆除技术因其快捷、高效的特点在桥梁工程领域得到了较为普遍的应用。由于
为推动国民优质阅读,向读者推荐好书,并引导读者深入领会好书内涵,本刊与首都图书馆联合举办了"首图讲坛·尚读沙龙"讲座。讲座以"平民、高端、精品、对话"为指导原则,每月举
目的比较阿苯达唑片与吡喹酮片治疗肝吸虫的临床疗效和副作用。方法将100例肝吸虫病患者根据感染程度情况平均分为两组,一组使用阿苯达唑片进行治疗,另一组使用传统的药物吡
世界上任何一种语言中都存在“否定”这个范畴,同时,“否定”也是人们沟通交际最常见的语言现象之一。但不同的语言表达否定意义的方法也有许多不同之处。西语表达否定概念的方
本文针对胜利油田聚合物驱后、高温高盐、严重非均质油藏进一步提高采收率的问题以及对耐温抗盐、具有突出剖面调整能力和非均质适应性的驱油材料和驱油体系的需要,设计了具有
根据上海轨道交通AC01/02型地铁列车客室车门的故障实际情况,运用质量控制(QC)的理论和分析方法,分析了导致客室车门故障的主要因素,并制定了有效的解决措施,取得了显著的经
随着高考人数的逐年下降,各个高校每年都面临着严峻的招生问题,特别是高职院校如何在激烈的竞争中生存,就业率和就业方向、就业薪资是一个很重要的指标。现在每个高职院校对自己
内蒙古宝格德乌拉地区位于得尔布干深大断裂西南端,属西伯利亚地台与华北地台之间的过渡型地壳构造区[1]。该区断裂构造发育,燕山期岩浆活动强烈,形成了大量的侵入岩、次火山岩
公路在改扩建过程中,路基拓宽差异沉降变形特征及由差异沉降所引发的路基及路面结构层附加应力问题日益突出。本文针对此问题,依据足尺模型试验,采用现场试验、室内试验和有限元
随着我国经济的快速发展,人们的出行需求越来越大,交通运输压力与日俱增。我国的交通运输系统也进入了蓬勃发展时期,由原来的单一形式,发展为如今的现代化、多元化、网络化的综合