论文部分内容阅读
在互联网飞速发展的进程中,越来越多的企业使用大数据对数据进行分析和评估。数据分析师需要使用MapReduce等计算框架对数据进行统计汇总后对其进行分析,然而大多数的数据分析师都知道如今最流行的Hadoop计算框架却并不能熟练地使用Hadoop的工作命令对计算任务进行操作。对于MapReduce的使用往往需要非常专业的云计算工程师完成,而Hadoop的学习过程又极其复杂,学习周期较长,这使得数据分析师使用MapReduce的难度很大。另一方面,人工进行MapReduce操作,由于各种主观因素经常导致任务失败或错误。虽然针对MapReduce设计的工作流引擎产品存在,但是该类产品都是使用指令行进行操作,均缺少工程项目所需的可视化操作环境,部署和操作均十分复杂。针对上述问题,本文设计了可视化的平台并结合可视化转化XML算法,本文主要工作包括三个方面:1.提供可视化的操作界面,通过定义工作流程图形的方式,对MapReduce作业进行部署。数据分析员面对大数据信息处理的情况下,通过使用可视化工具对多个MapReduce作业进行定义和部署,无需关心后台程序的实际操作。通过对用户可视化操作分析,提出了用户工作空间概念,包含团队文件共享和用户流程图管理的应用模块。任务提交后,利用Oozie的反馈机制,设计实现了可视化的流程状态查询模块,方便可视化管理MapReduce工作流程作业。2.阐述了工作流引擎和MapReduce计算框架的基本概念和原理的基础上,介绍了可视化与XML文档转换算法,设计并阐述了 XDWE基本运行流程及相关技术。针对工作流程可视化操作,提出工作流程向XML文档转换算法,同时为管理工作流程图提出XML文档向工作流程反向转换算法。针对MapReduce工作流程分析,设计了 XDWE模块对工作流程进行部署。3.分析了可视化数据处理平台的业务流程和应用需求,分别对该系统的数据和过程进行数据建模。在此基础上,建立了系统的总体应用框架。设计了系统多个功能模块并进行详细的代码设计、数据库设计、输入输出设计,满足相应的设计需求,最终实现了可视化数据处理平台。系统已经过测试并初步应用,运行状况良好。本文讨论了可视化操作和工作流引擎的相关理论,结合企业的实际使用背景,设计了符合企业实际需求的可视化处理系统,并利用相关技术实现该工程系统。系统的应用将会使得数据分析人员对数据处理进行透明操作。只需要将处理流程以流程图的形式呈现,即可得到想要的数据处理信息。通过平台测试可知平台运行效率比单独使用指令运行MapReduce低,但是论文解决数据分析员使用MapReduce进行数据分析的需求,同时可以对MapReduce任务进行组合,运行效果良好。