论文部分内容阅读
随着信息化的不断深入,数据的处理越来越呈现出海量,分布式,并行等特点,MapReduce框架以其简单性,低成本,高可伸缩性,高效性,受到了企业和科研机构的极大关注,并得到了广泛应用。但是使用MapReduce编程模型编写的数据处理操作程序很难实现重用,而且MapReduce不支持将数据处理过程分为多步和多分支的数据处理流程,这阻碍了MapReduce的使用,带来了不必要的重复工作。因此针对MapReduce的流程化处理,MapReuce操作重用性和可扩展性进行研究是比较有现实意义和科研价值的,能极大提高开发效率。
本文首先分析了MapReduCe在实际应用中存在的问题和当前基于MapReduCe的数据处理系统存在的一些不足,包括:与传统数据源集成问题,操作重用性和可扩展性问题,流程化处理问题等,然后提出了能够有效解决这些问题的面向MapReduce的数据处理框架。框架基于模型驱动技术和代码生成技术提出,分别对系统的外部数据源接入,流程和数据处理操作建模,模型转换算法,代码生成算法,任务调度策略等系统关键部分展开研究,在数据源接入方面,建立了类型映射表,同时提出了基于MapReduce的关系数据库数据并行抽取和装载方式;在使用模型驱动和代码生成技术设计框架方面,分别建立了流程的业务模型、执行模型、代码模型、设计模型转换算法将业务模型转换到执行模型,设计代码生成算法使用执行模型实例和代码模型高效生成流程的最终实现代码;最后使用流程特定的调度策略调度流程代码在Hadoop集群上的运行,该调度策略充分利用了集群的资源,提高流程运行的并发度和效率。
最后论文介绍了面向MapReduce的数据处理框架OnceDQ4Cloud的设计与实现,OnceDQ4Cloud充分利用和实现了上述研究成果,并通过典型案例以及相关实验验证系统的功能,评估系统的性能。