面向MapReduce的调度策略优化研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:nihaobaobeisss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的快速发展带来了大数据时代,大规模数据的高效处理对生产和实践意义重大,传统的计算模式已无法满足海量数据的处理需求。2004年,在Google发表了GFS和MapReduce的论文后,Hadoop开源项目应运而生。Hadoop由HDFS和MapReduce构成,MapReduce作为其核心组件,主要负责海量数据的分布式处理,其计算性能是一个备受关注的热点问题。通过大量的调研和实验分析发现,数据本地化是影响MapReduce计算框架性能的一个重要因素,它对集群网络带宽的消耗和节点的计算效率都构成影响。本文以MapReduce数据本地化为切入点,旨在通过提升MapReduce数据本地化来提升作业的执行效率。数据本地化即数据源在计算本地,本文深入剖析了MapReduce任务调度机制,发现MapReduce选择数据块和计算节点时的粗糙性是其数据本地化程度不高的主要原因。为了解决这个问题,本文对任务调度和资源分布进行了高度抽象并建模,提出了Bolas和Bolas+两个高效的任务调度算法,解决了MapReduce数据本地化的问题,也提升了作业执行效率。在MapReduce调度优化方面,本文有很好的创新性。Bolas创新性的将MapReduce的任务调度抽象为带权二分图的最优匹配问题,并创新性的解决了二分图匹配过程中计算节点和数据块的不匹配问题。Bolas+创新性的提出基于数据块标记的轻量级调度策略,在调度中,对数据块和节点进行了更加精细化的考虑。通过大量实验证明,Bolas可以将作业的数据本地化程度提升到100%,作业的执行效率能平均提升25%,Bolas+的数据本地化程度平均能保持在95%以上,随着作业规模变大,本地化趋于100%,作业执行效率能平均提升15%。基于图匹配Bolas虽然能取得很好的调度结果,但其算法复杂度为O(n3),随着作业规模的增大大,响应时间增速变快;基于数据块标记的Bolas+的算法复杂度为O(n/m),其响应时间随着作业规模的增大是线性增长的,n代表数据块的数量,m代表计算节点的数量。
其他文献
机器博弈是人工智能的一个重要研究领域,它在人工智能中的作用与果蝇在遗传学中的研究所起到的作用相似。机器博弈研究的大量成果已经被应用到很多实际的领域当中,如天气预报
随着视频编码技术、网络基础设施、信息家电以及消费电子的迅速发展,以视频内容为核心的流媒体服务已成为信息产业中最具发展前景的业务之一。基于典型的分布式系统Internet
决策树是一种有监督的归纳学习算法,它用于对有类标的数据集进行分类,而聚类是一种无监督的学习算法,它可以对无类标的数据集进行分组,使组内的数据相似性最大,组间相似度最
决策树算法是应用最广泛的机器学习算法之一,它基于一个无次序、无规则的样本数据集,试图从中提取出描述此样本数据集的数学模型。传统的决策树算法只能处理属性为离散值的样
在普适网格中移动设备作为资源被发现和管理是普适网格系统研究的重点之一。本文先提出了一种普适网格的系统结构,详细论述了移动设备作为资源在系统中被发现和管理的方法,分
自然界中存在的大量复杂系统都可以通过各种各样的网络进行描述。近年来,复杂网络的研究受到了越来越多的关注,并渗透到从自然科学到工程科学甚至社会科学的多个领域。研究所
学位
聚类分析涉及到统计学、数据挖掘、机器学习和图像处理等多个领域,人们对它研究热情日益高涨。在聚类算法中,基于模糊划分的模糊c均值算法(FCM)是一种重要的算法,它有着深厚
随着人类活动和国家建设的发展,人们对气象的需求越来越高,气象的重要性越加突显,气象灾害对国民生产和生活造成的损失也相当严重。为了提高气象服务的质量,减少和预防气象灾
随着通信网络技术和集成电路设计的高速发展,分布式嵌入式(Distributed Embedded, DE)系统向大规模复杂异构的方向发展。与此同时,网络安全问题也受到越来越多的人关注,由于
随着Internet的日益普及和快速发展,对等网络(P2P)系统因其良好的可扩展性和高效的查找特性,受到了越来越多学者和技术人员的青睐。如何高效的在P2P系统中查找到相应的资源节