论文部分内容阅读
如今我们已经步入到了高度信息化的社会,各个重要的领域都会涉及到数据的存储、处理和分析等问题。例如,天体物理研究、生物科学研究以及日常生活中使用的Internet都会产生大量的数据,这些数据很容易超过传统计算机能够存储和分析的能力范围。Hadoop是一种针对大数据分析的开源分布式计算平台,支持海量数据的分布式存储和并行计算。目前,Hadoop这种处理大规模密集型数据的计算平台已经受到国内外大型IT公司、社交网络、全球各大通信运营商等的广泛关注及应用。然而对于庞大数据的管理,往往需要业务员具有相关专业的素养。为了降低数据管理的成本,简化业务员管理数据的工作,社交网络公司Facebook自主开发了一个闭源的工具HiPal。 HiPal采用图形化的方式,直接访问数据仓库Hive,从而完成数据发现、查询编辑、制图和仪表盘创建等功能。HiPal仅局限于对Hive的操作,不能胜任跨平台的数据处理。本文设计并实现了一个面向数据分析人员和数据处理人员的海量数据处理图形化工具。系统的设计构架采用的是客户端/服务器模型,后台数据处理以Hadoop平台为基础,在Hadoop平台和客户端之间设计了一个统筹服务的服务端,用于沟通客户端和底层的Hadoop平台。客户端设计为图形化界面,面向用户提供数据管理。工作流设计和任务管理方面,针对客户端的不同的功能,服务端相应的划分了数据管理模块、工作流解析模块和定时任务管理模块来解析和响应客户端的请求。系统的工作模式是客户端向服务端发送请求,针对客户端发送的不同类型的请求,服务端经过解析和处理客户端请求,最后将结果反馈给客户端。