基于MapReduce的数据处理框架设计与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:chinacode007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的不断深入,数据的处理越来越呈现出海量,分布式,并行等特点,MapReduce框架以其简单性,低成本,高可伸缩性,高效性,受到了企业和科研机构的极大关注,并得到了广泛应用。但是使用MapReduce编程模型编写的数据处理操作程序很难实现重用,而且MapReduce不支持将数据处理过程分为多步和多分支的数据处理流程,这阻碍了MapReduce的使用,带来了不必要的重复工作。因此针对MapReduce的流程化处理,MapReuce操作重用性和可扩展性进行研究是比较有现实意义和科研价值的,能极大提高开发效率。   本文首先分析了MapReduCe在实际应用中存在的问题和当前基于MapReduCe的数据处理系统存在的一些不足,包括:与传统数据源集成问题,操作重用性和可扩展性问题,流程化处理问题等,然后提出了能够有效解决这些问题的面向MapReduce的数据处理框架。框架基于模型驱动技术和代码生成技术提出,分别对系统的外部数据源接入,流程和数据处理操作建模,模型转换算法,代码生成算法,任务调度策略等系统关键部分展开研究,在数据源接入方面,建立了类型映射表,同时提出了基于MapReduce的关系数据库数据并行抽取和装载方式;在使用模型驱动和代码生成技术设计框架方面,分别建立了流程的业务模型、执行模型、代码模型、设计模型转换算法将业务模型转换到执行模型,设计代码生成算法使用执行模型实例和代码模型高效生成流程的最终实现代码;最后使用流程特定的调度策略调度流程代码在Hadoop集群上的运行,该调度策略充分利用了集群的资源,提高流程运行的并发度和效率。   最后论文介绍了面向MapReduce的数据处理框架OnceDQ4Cloud的设计与实现,OnceDQ4Cloud充分利用和实现了上述研究成果,并通过典型案例以及相关实验验证系统的功能,评估系统的性能。
其他文献
虚拟化数据中心是云计算的基础性平台,是推动云计算发展的关键因素之一。虚拟化数据中心大多由普通服务器构成,发生故障的可能性非常高。AFCOM的一份调查报告显示,有81%的公司都
服装行业作为我国国民经济的重要支柱产业,对于满足国内消费需求、扩大就业以及平衡外汇收支都起着举足轻重的作用。而高库存和高缺货并存的问题一直困扰着我国服装企业的发
近几年来,P2P技术得到了很大的发展,大大满足了人们对信息获取的需求,给人们的生活带来了极大的便利。P2P是一种分布式网络,网络的参与者共享它们所拥有的一部分硬件资源(处
随着互联网、物联网的发展,更多的内容被数据化,数据的海量增长使得文本信息的分析与处理的需求日益突显。目前,文本处理技术主要包括:文档自动分类,文档检索,文档自动摘要等。而在
最近,随着互联网上信息的逐渐增多,信息的高效获取、智能获取越来越重要。于是有关语义搜索研究的讨论也越来越多。语义网的概念被提及的频率也越来越高,互联网上的两大搜索
由于网页更新的速度迅猛和数量日益膨胀,如何将海量的网页按照更友好、以用户更满意的方式聚类和展示成为很重要的一个问题。时间属性作为网页信息的一个重要特征,使得准确地
随着计算机网络的发展和Web开发技术的日臻成熟,Web正从传统意义下的静态信息发布媒介演变成为一种开放分布的计算环境,同时Web应用也逐渐成为构建企业业务系统的主流方式。如
随着科学技术不断进步和经济的快速发展,制造企业之间的竞争逐渐从过去的基于品种、价格、质量竞争转为基于时间的竞争(Time-based Competition,TBC)。同样品质的产品,准时交
近年来随着普适计算的迅速发展,基于IEEE802.11标准的无线通信技术得到越来越广泛的应用。无线技术为人们的通信、娱乐、计算提供了便利,然而无线环境具有网络信道带宽窄、网络
云计算强调计算环境的灵活性,要求计算平台支持按需分配、动态调整、快速部署、及时解散等功能。系统级虚拟化技术被认为是能满足以上需求的关键技术,已被应用于搭建云计算的