论文部分内容阅读
继分布式计算和网格计算之后发展起来的云计算,是当今IT领域研究的热点,包括对于分布式集群、虚拟化技术以及用户服务级别方面的研究。Hadoop是一个重量级的分布式处理开源框架,在对大数据存储和处理方面的优势使得它成为很多企业和学者们研究云计算的平台。本文围绕Hadoop实现框架、在虚拟机上搭建Hadoop集群与Hadoop不同调度的实现几个方面展开研究,重点集中在对Hadoop公平调度算法的研究和实现。由于云计算具有面向不同用户的特性,因此如何在不同用户之间公平共享资源关系到用户对云服务的满意程度,同时由于集群是建立在大量商务机或者虚拟机上,很容易出现故障,因此如何在节点出现故障的时候能够迅速迁移服务同样至关重要。本文贡献在于对MapReduce编程模型进行仿真实现,并搭建基于虚拟化平台的Hadoop集群,通过在不同的四个实验下运行MapReduce作业,研究不同调度算法的性能以及节点故障对作业性能的影响。本文在九个节点上搭建Hadoop集群,并设计四种不同的实验方案执行MapReduce作业,通过分析作业运行结果,评估不同调度算法性能。结果表明:1)先进先出调度算法比较适合于单用户作业的执行;2)公平共享调度算法能够在存在多个作业的情况下在不同作业之间公平共享集群资源;3)对于加入延迟时间的公平份额调度算法而言,不同作业最佳延迟时间的选择不是一成不变的,不同延迟时间对不同作业影响不同;4)发生普通单节点故障严重影响作业执行效率。