论文部分内容阅读
近几年来,随着现代社会的信息量增长速度极快,个人数据和工业数据量越来越大,未来的信息发展方向必将以数据为中心。预计到2020年,每年生产的数字信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。而云计算技术在工业界和学术界共同推动下取得了巨大的发展,大量的云计算系统投入使用。其中,很大一部分的云计算系统采用Hadoop平台来开发数据处理程序。Hadoop平台是一个在集群上运行大型数据的处理应用程序的开放式源代码框架,其最大的优点就是实现了并行化对应用开发者的透明处理,应用开发者可以像开发普通程序一样来开发云计算的应用系统,而并行化的具体实现则由Hadoop底层自动完成,使得开发者只需专注于业务数据的处理开发。Hadoop发展至今,在实际应用中已经趋于成熟,但是在一些地方还有改进的必要和需求。Hadoop的作业调度技术作为其平台的核心技术之一,其主要是针对作业执行的顺序按照调度算法分配计算资源,而使用的调度算法决定了Hadoop平台的系统资源的利用情况和整体性能。但是目前这一技术尚处于未完全成熟阶段,现有的作业调度算法均存在着一些缺点或限制,因此,通过对现有作业调度算法的研究,改进其不足之处,对提高Hadoop平台的整体性能和系统资源的利用率具有重要的意义。本文主要研究工作和贡献如下:通过广泛的资料查阅和学习,对Hadoop平台的产生背景和核心架构模型进行了比较深入的学习研究,并重点对核心架构中影响Hadoop整个集群的关键调度算法进行了深入学习,在学习并掌握Hadoop现有三种调度算法FIFO算法、公平调度算法和计算能力调度算法的基础上,针对三种算法的不足,提出了基于Logistic的回归作业调度算法,对算法的思路,要解决的问题进行了介绍,并在实现该算法的基础上对该调度算法进行实验验证,实验结果比较成功的达到了我们预期的目标,在一定程度上为Hadoop调度算法提供了更多的一种选择,并克服了已有三种算法中固有的缺点不足之处。