Hadoop云平台下调度算法的研究

被引量 : 0次 | 上传用户:ruru0077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是一种新型的分布式计算模式,它将任务分布在由大量计算机构成的集群上,让用户可以依据自身需求获取计算能力、存储空间及信息服务等。它能够为用户提供安全可靠的数据中心,使用户无需担心数据丢失、数据窃取、病毒入侵等问题。云计算从技术上解决了大规模并行计算、海量数据分布式存储、海量数据实时备份以及应用高度集成等问题,并凭借其安全可靠的特点以及个性化的应用深受企业和用户欢迎。云计算的出现对于IT演进具有深远的意义,它不仅推动了企业与社会的进步,带来了新的商业契机,而且开启了更高效、更灵活、协作的分布式计算模式。Hadoop是基于Java的用于海量数据分析与处理的分布式开源云平台,它凭借着高容量和低成本的双重优势,已成为大数据行业发展背后的驱动力。Hadoop是需要运行在大型集群上,并对成千上万的任务进行调度的海量数据并行处理系统,选择合适的调度程序对Hadoop的执行能力和交互能力有着非常大的影响,因此对Hadoop调度算法上面的研究和改进工作具有非常重要的意义。本论文主要研究开源云平台Hadoop的调度算法,在广泛调研的基础上,提出负载均衡的调度算法,并在自主搭建的Hadoop集群上实现。该算法对Hadoop原有的推测执行机制进行了改进,修改任务各阶段的权值,对任务的进度值、进程速率和剩余完成时间有更好的把握。同时,通过合理设定算法参数,使系统能够找到真正的掉队任务,并在非掉队节点上推测执行其后备任务,提高系统的响应时间。该算法还可以根据网络中的负载情况,不断调整后备任务数量的上限值,避免因过度执行后备任务导致的网络拥塞,保证网络的负载均衡。为了验证算法的性能,我们搭建了Hadoop集群,并在集群上实现所提出的负载均衡的调度算法。通过大量的实验数据,对任务各阶段权值以及算法各参数进行合理设定,使算法的性能达到最优。对该算法的性能进行反复测试并与Hadoop原调度算法与LATE调度算法进行比较。实验结果表明,在异构环境下,该调度算法能够将系统的响应时间缩短10%左右,提高系统的处理效率。并且能够通过系统的负载情况动态地调整后备任务数量的上限值,避免系统资源的无谓浪费。
其他文献
人口城镇化是城镇化的主要内容和衡量城镇化水平的重要指标,因此西部地区的城镇化首先应该是农村人口城镇化。西部地区农村人口城镇化应借助农村和城镇的拉力与推力,具体来说
<正> 笔者在长期临床实践中用解毒活血汤随证加减,治疗因湿热下注,大肠传导失职所致之赤白下痢等疾病,取得较好的疗效,拓展了该方的临床应用范围。解毒活血汤出自《医林改错
本文用正交设计法优化了丹皮酚的合成工艺,实验表明:将20.5g(0.15mol)氯化锌和14ml(0.24mol)冰醋酸在110~150℃下不断搅拌直到氯化锌完全溶解。然后,在数分钟内分批加入11g(0.10mol
依托丰富的热带雨林资源,海南省目前正在大力发展森林旅游。在这样的背景下,笔者提出将森林生态酒店作为森林旅游发展配套措施的建议,建议海南政府主管部门制定相应的发展政
农业发展银行是承担国家“农业政策业务”的特殊金融企业,其财产损失风险更具有隐蔽性、复杂性、广泛性。本文在分析农业发展银行信贷风险的政策、体制、管理及市场成因的基
高标准农田建设不仅能够大大提高粮食产量,更能够有效缓解土地资源的矛盾。文章从桦甸市八道河子镇的农田建设出发,提出高标准农田建设中存在的问题及相应的解决措施,为高标
本文综合分析了近期有关血管性痴呆治疗的文献,对血管性痴呆的中医辨证、中医药治疗、针灸治疗、西医治疗及中西医结合治疗进行了综述,认为中西医结合治疗方法是目前治疗血管
目的观察围手术期针对性护理对腰三横突综合征行针刀配合拔罐放血治疗患者的效果。方法选择2011年1月~2013年6月我科就诊的128例腰三横突综合征患者为研究对象,随机分为观察
根据JGJ/T15-2008《早期推定混凝土强度试验方法标准》的相关规定,结合PCCP管芯混凝土的生产过程进行试验,建立了PCCP管芯混凝土标准养护条件下3d和28d抗压强度之间的关系式,