基于MapReduce的海量数据ETL及其优化研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:aswe19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
I/O性能优化是海量数据处理性能优化的核心问题之一。MapReduce计算模型已经广泛应用于海量数据处理,然而该计算模型并没有提供I/O性能优化的框架。运用云计算技术,并结合工作流的技术和现有的海量数据处理的方法,本论文对基于MapReduce的海量数据处理做了深入的研究。本论文的主要内容和创新点总结如下:   1.MapReduce任务流程的依赖性分析和优化算法设计。MapReduce是一个能够有效处理海量分布式数据的计算模式。它是一种通过划分大文件并通过文件读写来提高并行性的计算模式。这种计算模式和其他的海量数据处理模式一样、减少文件读写操作是性能提升的关键。本论文提出一种叫属性依赖性分析(Operation Dependency Analysis)的方法有效的分析了各个MapReduce任务之间的依赖性,并基于这种分析设计了两个优化的算法。   2.CPLDP系统的设计和实现。针对上述问题和解决方法,本论文设计了一个CPLDP(Cloud-based Parallel Large Dataset Processing,基于云计算平台的海量数据处理系统)的系统,该系统实现了基本的数据处理操作,并基于这些操作实现了一个数据流设计和运行引擎,并实现了优化算法。   系统性能测试表明,利用CPLDP系统可以有效地设计海量数据处理流程并在执行引擎中执行。同时属性依赖性分析(Operation Dependency Analysis)和基于它之上的流程优化算法很大的提高了系统的性能,减少了数据处理流程的运行时间。
其他文献
随着计算机软硬件的发展以及应用水平的提高,事件流应用越来越多的出现在网络安全、金融分析、传感器网络等领域中。目前已用于国家网络安全监控应用的DBroker系统作为一种基
随着信息技术的快速发展,人们收集、存储和传输数据的能力不断提高,各类应用领域产生海量的数据,数据挖掘与机器学习成为了数据分析和知识发现的重要工具。频繁模式挖掘是数据挖
在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。作为模式分类的研究方法之一的支持向量机技术近来也得到广泛的研究和应用。进行分类时,我们必备的两个
由于互联网的优越特性,在其上发布信息极为便捷,这就使得互联网上的信息数量以近乎爆炸的速度增长。如此多的信息即使浏览一遍都无法做到,用户希望能找到感兴趣的部分更是不
人脸识别作为最自然、最友好的生物特征识别方法,在安全、金融等领域均有重要的应用价值。经过近四十年的发展,传统二维人脸识别在限定性条件下已经获得很大进步,但在光照、姿态
聚类分析作为数据挖掘的重要技术,在网络分析、市场营销以及医学图像自动监测等领域被广泛应用。聚类就是将物理或者抽象的集合分组成为由类似对象组成的多个类的过程,同一个
自然场景的动态模拟一直是虚拟现实和计算机图形学中一个重要的研究领域,它在计算机动画、影视制作、虚拟现实、三维数字展示和战场模拟方面都有非常广泛的应用。风作为自然
传统搜索引擎技术是基于关键词字符匹配的全文检索技术,主要借助目录、索引和关键词等方法来实现。由于提交的查询语句存在歧义性和不明确性,因此返回给用户的搜索集合中往往存
现实世界中的场景丰富多彩、绚丽多姿,这些场景有着非常高的动态范围和对比度。场景的动态范围被定义为场景中最亮部分的亮度值与最暗部分的亮度值之比。传统的显示设备如CRT
多媒体会议作为多媒体应用的一个重要组成部分,为社会性的信息交流发挥了巨大的作用。经过多年的发展,主流的多媒体会议系统分为两种,一种是基于H.323协议的,一种是基于SIP协