Hadoop模型研究及其作业调度算法的改进

被引量 : 6次 | 上传用户:lijing1671
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着现代社会的信息量增长速度极快,个人数据和工业数据量越来越大,未来的信息发展方向必将以数据为中心。预计到2020年,每年生产的数字信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。而云计算技术在工业界和学术界共同推动下取得了巨大的发展,大量的云计算系统投入使用。其中,很大一部分的云计算系统采用Hadoop平台来开发数据处理程序。Hadoop平台是一个在集群上运行大型数据的处理应用程序的开放式源代码框架,其最大的优点就是实现了并行化对应用开发者的透明处理,应用开发者可以像开发普通程序一样来开发云计算的应用系统,而并行化的具体实现则由Hadoop底层自动完成,使得开发者只需专注于业务数据的处理开发。Hadoop发展至今,在实际应用中已经趋于成熟,但是在一些地方还有改进的必要和需求。Hadoop的作业调度技术作为其平台的核心技术之一,其主要是针对作业执行的顺序按照调度算法分配计算资源,而使用的调度算法决定了Hadoop平台的系统资源的利用情况和整体性能。但是目前这一技术尚处于未完全成熟阶段,现有的作业调度算法均存在着一些缺点或限制,因此,通过对现有作业调度算法的研究,改进其不足之处,对提高Hadoop平台的整体性能和系统资源的利用率具有重要的意义。本文主要研究工作和贡献如下:通过广泛的资料查阅和学习,对Hadoop平台的产生背景和核心架构模型进行了比较深入的学习研究,并重点对核心架构中影响Hadoop整个集群的关键调度算法进行了深入学习,在学习并掌握Hadoop现有三种调度算法FIFO算法、公平调度算法和计算能力调度算法的基础上,针对三种算法的不足,提出了基于Logistic的回归作业调度算法,对算法的思路,要解决的问题进行了介绍,并在实现该算法的基础上对该调度算法进行实验验证,实验结果比较成功的达到了我们预期的目标,在一定程度上为Hadoop调度算法提供了更多的一种选择,并克服了已有三种算法中固有的缺点不足之处。
其他文献
目的了解农村大学生的自我效能感与心理健康的现状及其关系。方法采用自我效能感量表和症状自评量表(SCL-90)对460名大学生进行问卷调查并结合访谈法作了进一步研究。结果农
本文以建筑工程绿色施工技术应用为出发点,分析在建筑工程施工中应用绿色施工技术的目的,并针对此行业的发展所带来的问题,分析绿色施工技术应用的关键。
目的探讨慢性荨麻疹(CU)与幽门螺杆菌(Hp)感染的相关性及临床治疗方案的选择。方法选取确诊CU患者95例与健康体检者35例,行14C-尿素呼气试验(14C-UBT)明确Hp感染情况。对存在
学术界对影响网络购买意愿因素的研究主要集中在感知质量、感知风险、价格、服务等方面。但随着网络购买市场的不断发展,网络商店数量越来越多,顾客选择范围也越来越广,因此
针对现有声纳装备批量采购模型在描述库存成本上的缺陷,对其进行了修正。给出了应用遗传算法进行求解的方法,结合动态规划最优性原理,着重优化了编码方案的设计,确保编码方案的完
白居易是唐代仅次于李白、杜甫的大诗人。从唐文宗大和三年(829)春以太子宾客分司东都,至武宗会昌六年(846)八月因病去世,白居易在洛阳一共度过了18年寂寞而漫长的晚年生活。白居易
中国的互联网成熟度还非常低,但是发展非常迅速。2004年的《中国网上购物市场研究报告》显示出,影响中国网络购物用户购买决策的主要因素是产品的价格,即网络购物时用户的价
黑硅是一种具有纳米陷光结构的新型半导体光电材料。近年来,因其在可见光范围反射率极低,从而在硅太阳电池领域受到世界各国科研单位广泛的关注和研究。然而,至今尚未有黑硅电池
本文在对软件项目管理和项目管理成熟度模型发展讨论的基础上,根据中国项目项目管理知识体系以及我国软件企业中软件项目管理和软件能力成熟度模型的发展中所出现的问题,总结
目的:通过对吉林省地区社区卫生服务机构卫生资源配置情况包括硬件设施配置情况、卫生工作人员配备情况、工作人员既往参加培训情况等比较分析,了解吉林省地区社区卫生资源配置