论文部分内容阅读
随着信息时代的到来,海量数据处理成为越来越多行业面临的挑战。云计算以庞大的集群作支撑,为用户提供类似超级计算机的计算能力,成为处理海量数据的关键手段。Hadoop以其高可靠性、高可扩展性等优点成为最热门的云平台之一。然而,对于数据分析人员和算法研究人员,维护与使用Hadoop平台的成本较高,需要花很多精力学习Hadoop的交互细节,而无法专注于自已的分析研究之中。针对以上问题,项目组基于Hadoop研发了 一套面向数据分析人员和算法研究人员的海量数据处理与分析平台,称为Eole系统。Eole系统的目标是采用标准数据格式,为用户提供海量数据的存储与计算能力。本文基于Web设计实现了 Eole系统的任务管理模块。任务管理是Eole系统的核心功能之一。Hadoop本身由Yarn负责任务管理的功能,但存在一些不足之处。第一,鉴权机制存在缺陷,用户身份容易被仿冒。第二,主要靠命令行或API与用户交互,Web端功能较少。Eole系统任务管理模块负责MapReduce作业从创建到结束整个生命周期的管理,以 HDFS(Hadoop Distribute File System,Hadoop分布式文件系统)作为数据存储方式,MapReduce作为数据处理方式,并且使用Kerberos用于系统鉴权,保证用户作业与数据的安全。同时,该模块还为用户提供Web端的可视化操作界面。用户可以通过浏览器或者HTTP协议完成与系统的交互,使用方便。且HTTP这样一种目前最广泛使用的网络协议也将满足绝大部分应用场景。定时执行、合理资源分配、状态监控、丰富的结果信息展示等多种管理功能也将为用户的使用带来便利。该模块以MapReduce这一通用计算框架为计算基础,保证了通用性,通过Web端界面为用户提供友好的交互方式,可有效提高用户处理数据的效率。