基于Hadoop的调度算法研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:liongliong566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算作为一种新的信息技术,为海量数据的分析和处理带来了全新的视野。它是一种商业计算模型,将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算能力、存储空间和信息服务,具有大存储、高可靠性、易于扩展等特点。Hadoop是用于数据分析与处理的开源云平台,对大量作业进行调度和处理。调度主要是对资源进行合理分配和对作业的运行顺序进行控制。Hadoop运行在大量机器组成的集群中,对成千上万的任务进行管理和调度,合适的调度算法对作业响应时间和交互能力都有重要影响。MapReduce是Hadoop中用于处理超大规模数据集的编程模型,分为Map和Reduce两阶段。动态资源分配中需要预估MapReduce运行过程中Map和Reduce的执行时间,而当前调度算法的研究中对此关注较少,本文提出一种改进的预估执行时间的方法。Map阶段,根据历史执行信息采用均值法作为预估方法;Reduce阶段采用基于采样和反馈相结合的预估方法。本算法能更准确地预估任务的执行时间并为动态分配资源提供有效时间预估方法。鉴于Hadoop内置的调度算法不能满足有效区分CPU密集型和I/O密集型两种类型的作业并且作业需要在特定的时间之前完成的需求。本文提出一种区分作业类型的基于截止时间的调度算法(Type Specific and Deadline Based Algorithm in Hadoop, TSD)。本算法包含两部分:将用户提交的作业分为CPU密集型作业和I/O密集型作业的预测机制;根据用户设置的最后完成期限而设置优先级的基于截止时间的调度算法。实验结果表明,TSD算法较以往单纯保证截止期的算法在确保作业成功率、缩短作业响应时间和提高集群的硬件利用率方面都有很大的提升。
其他文献
随着移动设备和无线局域网的普及,定位服务越来越成为人们生活中必不可少的功能。相比于目前已经很成熟的户外GPS地图定位,室内位置信息的获取,特别是在场地复杂的公共场所比
时间序列是一种广泛存在的数据,客观记录了所观测的系统在各个时刻点的具体值,所以可以通过研究时间序列数据来辨识和重构所观测系统的动力学行为。早期的研究方法是基于统计
随着我国证券市场的不断发展和完善,股票市场作为我国经济“晴雨表”的功能也越来越突出,无论是个人投资者还是国家都十分关注股票市场的走势。若能较为准确的预测股票市场的涨跌趋势,不仅可以为广大投资者提供投资决策的依据,也能够为国家制定相关经济政策提供参考。股票市场具有非线性、高噪声、数据量大等特征,相关的股票分析方法,如基本面分析法、技术面分析法、时间序列分析法等,各有特色,但难以适应日趋复杂的股市。研
随着互联网的迅猛发展以及电子商务的快速流行,海量信息充斥在人们的生活中。信息超载问题也越来越严重。为了解决该问题,推荐系统就此诞生。它通过分析用户的历史行为记录,得出
MQX是一款主要面向工业控制、汽车电子及消费电子等领域实时多任务应用的嵌入式实时操作系统。2009年,飞思卡尔公司半导体公司开始免费开放MQX3.0.1版源代码,同年,苏州大学飞思
随着Web技术的不断发展进步,J2EE已成为Web开发的应用技术的最流行的架构规范。这个平台已经拥有很好的技术支持和服务,它的多层架构受到大型Web开发者的青睐,是解决企业应用
随着人们出行需求的大幅增加和各类交通工具数量的迅速增长,对轨迹数据进行分析和挖掘开始受到广泛的关注和重视。得益于智能交通系统在各大城市的普及应用,大量的车辆轨迹数
随着大数据时代的到来,数据开始呈爆炸式的增长,互联网用户越来越被淹没在数据的海洋之中。因此,如何帮助用户从海量的信息中找到真正感兴趣的资源成为一个亟待解决的问题。商品
自然语言中的实体是指语句中出现的客观世界中存在的,并可相互区别的对象或概念。推断实体所属的语义类型是自然语言处理中的一项有着重要意义的任务,也是一项很有挑战性的任务
随着智能手机等移动终端的兴起,移动互联网正在慢慢地改变人们的生活和习惯。基于位置服务(LBS)的应用作为移动互联网的一个重要组成部分,是每一个移动终端上必备的应用程序。