面向过程感知的云作业资源调度

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:guo4502332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算给社会带来了许多变化,社会生活被不断地数字化。如何处理海量的数据成为了一个令人关注的话题。Hadoop是一个分布式计算软件框架,其包含分布式存储和MapReduce计算,能够使得分布式处理海量数据成为可能。Hadoop作业调度决定了Hadoop集群的使用效率以及用户体验。但是,Hadoop目前的调度算法没有考虑到集群异构性,如何高效地对异构Hadoop集群进行作业调度,成为了一个具有挑战性的难题。本文分析了Hadoop的任务运行机制,对现有的Hadoop FIFO调度算法、能力调度算法、公平调度算法、LATE调度算法等调度算法进行了研究,发现在异构Hadoop集群中调度算法没有对执行任务的计算节点进行感知,不能够根据不同的机器性能分配不同的任务。为此,本文提出了一种面向过程感知的任务调度算法IOAware o该算法对计算节点的硬件性能进行评估,并在任务的执行过程中推测任务的属性。在后续任务分配的时候,结合计算节点的性能表现分配不同的任务,从而达到共享计算节点磁盘IO的效果。这样能够缩短并行的任务的执行时间,提高集群的吞吐率。IOAware算法的特点体现在两个方面:一是,从任务对磁盘IO的需求来判断任务的属性,将任务分为CPU-Bound和IO-Bound类型,将不同类型的任务组合在一起,减少多个任务同时对磁盘10的操作,降低磁盘阻塞的可能性;二是,在考虑任务属性的同时,把提高任务的输入数据本地化比例作为一个重要的指标,减少数据网络传输时间,达到减少任务的执行时间的效果。为了验证IOAware调度算法的理论可行性,论文在Hadoop平台下设计并且实现了IOAware调度模块。在Hadoop集群中使用该调度模块进行多次实验,从作业的响应时间,任务的数据本地化比例,系统吞吐率和系统资源这四个方面来对IOAware与FIFO,Capacity调度算法和公平调度算法进行性能上的比较。通过实验发现,对于单独的任务执行时间来说,该调度模块与现有的调度模块获得的时间一致;对于具有不同属性的任务来说,该调度模块能够将不同属性的任务组合在一起,减少了同一时刻磁盘操作的次数,缩短了CPU等待磁盘的时间,提高了CPU利用率,其次调度模块有效的提高了任务的数据本地化率,提升了系统的吞吐率。
其他文献
随着Internet的飞速发展,人们的工作生活越来越离不开互联网,截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%。网民数量的急剧增加带来的庞大的访问流量给很多受
随着互联网技术和社交网络技术的飞速发展,用图交流已经成为当下最有效的沟通手段,因此利用机器模拟人脑对图像的理解和识别,具有广泛的社会应用价值。其中,相似图像的检索在图像
随着计算机互联网技术的高速发展,微博作为一种信息传播速度快、用户互动性强、信息实时性高的新型网络媒体很快得到人们的认可,成为人们了解时事信息、分享个人生活点滴重要平
学位
随着现代工业生产的迅速发展,人们的物质生活所需品日益丰富,生活质量极大地提高。与此同时,由于工业生产设备的大量投入使用,对灾难性事故危害的潜在风险的控制也成为了不容忽视的问题,人们对危害其生命、财产和环境等各类风险也越来越难于容忍。为了提高工业生产的安全性,通常采用安全仪表系统(Safety Instrumented System, SIS)在出现安全事故之前发挥其安全功能,避免安全事故的发生,或
当前,在互联网上传输的视频数据占据了网络流量的大约70%。毫不夸张的说,视频数据是大数据时代最大的数据。如何让计算机更好的看清与理解眼前的世界不是一个简单的问题,近年来也
基于监控场景下的行人重识别问题是当前计算机视觉领域研究的热点,主要任务是指行人在穿梭于监控场景中摄像机网络的视频或图片的匹配,特别是对于非重叠视域的多摄像机网络结构
随着信息技术的高速发展,传统医疗正在向更加电子化和数字化的方向发展。电子医疗档案是标准化的居民基本健康相关信息。它不但能为医疗工作者提供参考信息,还能和其他信息系
近几年,随着国内互联网技术的迅猛发展,几大电商如淘宝、京东等,正悄然改变着大众的生活方式;同时,随着微博等社交网站的崛起,国内互联网用户越来越多的在网络上发布自己的主观观点
计算机技术的快速发展使得有限元分析在机械设计与研宄中得到了广泛的应用。在机床设计与制造领域,运用计算机动力学仿真与CAE技术可以在机床开发试制之前对其零部件的工作情