论文部分内容阅读
I/O性能优化是海量数据处理性能优化的核心问题之一。MapReduce计算模型已经广泛应用于海量数据处理,然而该计算模型并没有提供I/O性能优化的框架。运用云计算技术,并结合工作流的技术和现有的海量数据处理的方法,本论文对基于MapReduce的海量数据处理做了深入的研究。本论文的主要内容和创新点总结如下:
1.MapReduce任务流程的依赖性分析和优化算法设计。MapReduce是一个能够有效处理海量分布式数据的计算模式。它是一种通过划分大文件并通过文件读写来提高并行性的计算模式。这种计算模式和其他的海量数据处理模式一样、减少文件读写操作是性能提升的关键。本论文提出一种叫属性依赖性分析(Operation Dependency Analysis)的方法有效的分析了各个MapReduce任务之间的依赖性,并基于这种分析设计了两个优化的算法。
2.CPLDP系统的设计和实现。针对上述问题和解决方法,本论文设计了一个CPLDP(Cloud-based Parallel Large Dataset Processing,基于云计算平台的海量数据处理系统)的系统,该系统实现了基本的数据处理操作,并基于这些操作实现了一个数据流设计和运行引擎,并实现了优化算法。
系统性能测试表明,利用CPLDP系统可以有效地设计海量数据处理流程并在执行引擎中执行。同时属性依赖性分析(Operation Dependency Analysis)和基于它之上的流程优化算法很大的提高了系统的性能,减少了数据处理流程的运行时间。