适于复杂逻辑关系子任务的Hadoop调度系统

来源 :南开大学 | 被引量 : 0次 | 上传用户:linxain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由通用机器组成的大规模集群作为并行计算的有效途径之一,广泛应用于科学及工程中的计算模拟、海量数据处理等复杂问题中。并行编程模型是并行计算及开发并行软件的基础,是决定并行程序运行的关键因素之一。现有的编程模型针对特定的计算需求,难以有效地通用于不同的应用问题。因此设计一种具有通用性的并行编程模型成为当前研究的重要领域。   通过对多种并行编程模型的分析总结,本文提出一种改进的编程模型,适用于在大规模廉价集群上解决广泛的应用问题,特别是具有复杂逻辑关系的子任务。用户通过简单的接口描述各子任务的内容及子任务之间的逻辑关系。模型按照任务的逻辑关系和集群的实时运行情况调度执行任务,最大程度地利用集群的计算资源完成计算。错误处理和推测式执行机制使模型具有较高的可靠性。   本文基于Hadoop平台,设计实现了一个原型系统。采用模块化设计,使用Java语言开发。系统分为任务解析、调度和节点通信模块三部分,各模块之间功能划分清晰,具有良好的可移植性和扩展性。实验结果表明,系统可以稳定地运行在异构的廉价集群上,正确地解析任务的内容并在集群中调度执行。在部分子任务执行失败,或部分节点故障的情况下,可以保证系统正确地完成计算。与MapReduce模型相比,改进模型可以合理地描述任务并充分利用集群的计算资源,矩阵相乘和大数分解问题的运行时间分别缩短64.2%和20.3%,为复杂的应用问题提供了新的解决方案。
其他文献
目前,原子力显微镜(Atomic Force Microscope,AFM)作为一种针对纳米级样品的成像与操作工具,已被广泛应用于生物、医学、材料等工业领域之中。原子力显微镜虽然具有非常高的成像
嵌入式系统的功耗随着芯片密度、性能要求的大幅增加呈指数增长,以电池供电的便携式设备的能耗问题尤为突出,随之而来的芯片散热成本增加、芯片稳定性下降等问题严重制约了嵌
随着企业信息化进程的推进和技术的不断革新,激烈的竞争和日益复杂多变的市场环境,让企业面临的不确定因素急剧增加,向企业的生存和发展提出了严峻的挑战。企业是一个复杂的系统
语音识别和人工神经网络模型长期以来都是学术界研究的重点,前者是方便计算机和人类交互的一种手段;后者使用数学方法对于人脑工作机制进行抽象和建模。本文将二者结合,使用人工
二十一世纪,网上购物已经成为人们主要的购物方式。随着互联网用户井喷式的增长趋势,电子商务网站每天不得不面临巨大的访问量。面对海量数据存储以及高并发读写,关系型数据
物联网是未来网络发展的方向,它的核心就是现在的互联网。无线传感器网络是一种低功耗低速率的短距离无线网络通信技术,也是物联网的重要组成部分之一,因此解决无线传感器网络与
随着国内金融市场的不断发展和完善,信用卡业务的增长为银行带来大量利润,信用卡客户的分析和研究也受到更多的重视。目前我国对客户价值的评价系统还比较简单,方法还比较单一,如
近年来,随着互联网+时代的来临,以及智能手机的普及,移动互联网越来越参与并辅助人们的生活。同时社会正面临严重的人口老龄化问题,日益增多的空巢老人数量,带来一系列的社会
随着经济发展,信息不对称、大量信息孤岛存在、客户数据无法统一等问题,增加了高科技企业信息管理工作的动态性和复杂性。本文从当前搜索引擎发展的背景和趋势出发,利用Microsof
传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样