论文部分内容阅读
随着经济的全球化发展以及计算机水平的提高,企业的业务遍布全球,大数据处理已经成为政府和企业应用中常见的业务需求。Hadoop作为目前最为成熟的开源大数据处理框架,实现了 MapReduce的编程范式,海量的源数据通过Hadoop支持的HDFS存储并在Hadoop集群中的计算节点进行并行处理。然而,很多情况下,企业所需要处理的源数据是同时分布在多个数据中心的。此时,Hadoop传统的集群部署方式便不再具有明显的性能优势,因为其在数据处理之前首先要进行海量数据的移动,使得性能严重依赖于源数据大小以及数据中心间的网络带宽,造成不必要的时间和资源浪费。现有的研究方法也没有针对不同情况考虑采用不同的部署,只是将海量的数据统一移动到计算结点所在的数据中心进行处理,这种方式往往会受限于数据量的大小和数据中心之间的网络传输能力,对大数据处理的性能造成很大影响,本文考虑的主要是处理时间和花费方面的性能。另外,云基础设施随机行为造成的不确定性还影响着云基础设施应用编程接口(API)的可靠性和性能。为了解决这个问题,本文首先提出了跨数据中心大数据的部署处理框架,主要包括决策层、映射层和云应用系统层。决策层负责对跨数据中心的数据处理过程中产生的冲突的策略进行性能评估预测并选择性能最优的策略执行。云应用系统层负责监测决策层所需要的与数据处理相关的性能数据,同时也会执行决策层所选择的策略。而映射层则负责决策层和云应用系统层之间操作和事件的转换。其次,本文将跨数据中心大数据处理的集群的部署方式分为三种:单集群部署方式、分布式集群部署方式和多集群部署方式,提出了适用于跨数据中心的大数据处理的性能评估模型,评估预测不同集群部署方式下的性能。再次,本文以性能评估模型的评估预测结果为基础,提出了跨数据中心大数据处理的集群部署策略、基于遗传算法的任务分配策略以及云应用接口的容错调用策略,解决跨数据中心大数据处理的性能和可靠性问题。最后,针对所提出的性能评估模型和相关策略,本文选用AWS提供的EC2平台,搭建集群进行跨数据中心的大数据处理实验并进行结果的分析。实验结果证明,本文所提出的性能评估模型可以比较准确地对跨数据中心的数据处理的性能进行评估,基于该模型的框架和策略大大减少了数据处理的时间和成本,较好地提升了跨数据中心数据处理的性能和可靠性。