论文部分内容阅读
大数据并不是一个突然出现在生活中的新奇概念,特别是如果仅仅从3V(Volume/Variety/Velocity)特性来看的话。然而受制于从前记录信息的载体(甲骨、玉版、钟鼎、简帛、纸质、磁带)以及对信息分析处理的方式(受限于信息载体,只能是个体大脑的思考,分析和总结或者小规模群体的讨论,思考,分析和总结)的先进程度,人类从没有像我们现在这样如此强烈地感受到来自大数据的对生活方方面面的影响。直到上世纪60、70年代,信息记录的电子化,PC的出现,互联网的出现,再到最近几年存储载体硬盘和性能强大的PC的大幅降价,互联网基础设施的极大完善,才使得“大数据”从极少数特定领域的科研机构、行业巨头进入普通人们的生活。使用“大数据”的硬件条件已经成熟,然而当真切尝试将“大数据”应用到实际迫切需要的业务上的时候,依然面临一个尴尬的境地:1.集群是“大数据”事务处理的唯一承载体,于是我们还需一套系统来帮助我们处理这些头疼的问题:集群软硬件计算资源的高效管理调度、集群的安全机制、目标事务的作业化、作业的并行化、作业的高效管理调度、工作流引擎、与作业的实时交互、处理集群节点的平台差异。2.虽然我们有诸如:OpenPBS TORQUE, UNICORE, Sun Grid Engine, CONDOR, LSF, LOADLEVELER这样众多出众的集群系统或者作业调度系统,但是要么价格不菲,要么针对特定平台,要么针对特定性质应用,要么仅支持Unix/Linux架构平台下的集群异构,没有真正免费的“异构”集群作业调度管理系统。本文正是以上述情境为背景,围绕“异构集群作业管理调度系统”这个主题,阐述一个“异构(Unix/Linux, Windows)集群作业调度系统-HATSUNE"的设计与实现。论文的主要工作包括:1.通过研究,分析UNICORE的多子集群管理架构,工作流引擎架构,设计HATSUNE的架构,以期达到不用用两套系统(子集群间的管理系统,子集群内的管理系统)来实现异构集群节点资源的监控,管理及其作业的调度管理。测试结果显示,这一架构是可行的,并且极大程度为集群管理者带来了便利。2.通过研究、分析开源的OpenPBS TORQUE的核心源码,学习Unix/Linux下的通用集群作业调度系统的设计,作业调度器的设计以及用户与作业实时交互方式的设计。3. HATSUNE的架构设计,包括以下九个层次/模块:Server主进程、作业调度器、节点、作业用户Server控制台、Unix/Linux节点计算进程、Unix/Linux作业执行器、Windows节点计算进程、Windows节点作业执行器、ServerAPI集、节点/作业拥护Web控制台。4.相关文档的撰写。5. HATSUNE的实现(Python).测试。6.针对渲染集群的完善、优化。