基于MapReduce大数据并行处理的若干关键技术研究

来源 :东华大学 | 被引量 : 13次 | 上传用户:singleitol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系数据库技术在传统数据科学领域的研究已经比较完善,但是由于当前CPU计算能力与磁盘读写技术发展的不平衡,使I/O成为了传统数据库性能提升的瓶颈。此外,传统数据库也无法胜任非结构化数据类型的数据分析处理任务。随着大数据研究的日益深入,出现了各种新的数据查询处理方法。关系数据库和非关系型数据库技术相融合研究是数据科学、数据工程领域的研究热点,国内外研究学者进行了一些探索,仍然有很多关键问题有待解决。如何实现利用MapReduce分布式并行计算方法解决大数据查询处理,以及针对查询处理系统提出有效的查询优化策略是目前学术界普遍关注的问题。本文正是从利用MapReduce分布式并行计算的思想和方法入手,设计了新的面向大数据的查询分析处理方法,本文的研究工作概括为以下几个方面:一、在传统关系数据库查询代价估计模型基础上,设计了基于MapReduce的大数据并行处理的代价估计模型,并且针对不同的优化策略,分别设计了Hash连接环境,查询物化策略环境以及频繁查询环境下的代价估计优化模型。二、讨论了并行处理系统的查询优化控制问题。提出基于列存储的大数据分析系统物化策略。首先,通过引入MapReduce物化代价估计模型,深入分析影响物化效率的各个因素。在此基础上设计了MapReduce分布式环境下的面向物化策略的存储系统文件格式:MMF,在数据加载过程中采用协同定位策略实现对物化数据的存储优化;其次,分别针对不同的物化时机,构建了mapreduce早期物化策略,mapreduce延迟物化策略和mapreduce混合物化策略;然后,利用自适应物化调整策略对其做了进一步优化。三、针对传统关系型数据库在对大数据访问操作时,系统性能严重下降,计算效率提升有限以及可扩展性差等问题,引入mapreduce并行计算模型,设计了大数据上基于列存储的mapreduce并行连接算法。首先,设计了面向大数据的分布式计算模型,其次,使用了分片聚集和子连接启发式优化方法实现大数据在mapreduce分布式环境下并行连接算法。四、设计了大数据上基于列存储的支持负载数据偏斜动态探测的mapreduce分布式hash连接算法。首先,建立了面向大数据的分布式计算模型,在此基础上设计了mapreduce环境下的哈希分布式存储系统;其次,在数据加载过程中采用协同定位策略实现对数据分布的优化,减少数据偏斜的出现;然后,在设计的分片聚集并行连接基础上,利用hash连接以及动态探测方法优化了数据连接处理效率。五、通过讨论并行处理系统的调度优化控制问题,设计了面向大数据频繁查询工作负载的优化方法。首先,建立频繁查询模型,分析了mapreduce环境下影响频繁查询效率各种因素。其次,设计了基于mapreduce一致性窗口分片算法,不仅为频繁查询集合创建更多的重用机会,而且通过对输入数据这样的精细粒度调度,可以大大减少冗余数据加载。然后,在数据调度方面,利用mapreduce延迟调度策略,提高数据处理吞吐量,优化mapreduce集群计算资源分配,通过mapreduce频繁查询数据重用策略,构造最佳的数据重用调度执行计划。最后,开发了基于hadoop的算法测试原型系统hcms对所提方法进行逐一验证。实验结果在证明算法有效的同时,也能提供良好的可扩展性。通过分析证明算法在执行时间、在存储空间和负载能力上,都有很好的表现。
其他文献
蒙太奇手法是在影视制作中把分切的镜头组接起来的手段,而随着时代和科技的不断发展,动画与电影越来越相近,蒙太奇手法的运用对动画质量有着举足轻重的影响。首先在调查蒙太
膜分离技术是利用选择性分离膜实现溶液分离、浓缩、纯化和精制等功能的新型分离技术,广泛用于废水处理、中水回用、海水淡化等领域。而现有单一材料的分离膜仍存在着低渗透
介绍目前国外主要的数据溯源描述语言:DCMI术语、OPM-O、PV、VoIDP、PROV-O,从来源和目的、资源描述角度、主要服务对象和解决的问题、标注方式、词表结构等方面分别对以上数
<正>鄂尔多斯美术馆有两条功能主线:公共展览线路和内部资料线路。展览的交通以线性展开,水平低矮的入口顺沿沙丘坡地的自然地形扭转,在高处则挑起远望考考什那水库,继而反转
涉土领域渎职犯罪会给国家造成巨大的损失。在渎职犯罪中,涉土领域占有较大比例。涉土领域渎职犯罪发生有自身个性原因。治理涉土领域渎职犯罪必须坚持标本兼治,惩防并举。
目前多数数据溯源系统都是建立在传统数据库的基础上,这就造成了在处理海量的高复杂度的数据时出现查询效率低,结果不可靠的问题。针对上述问题,探讨了Hadoop系统、现有的数
在回顾异性交往的概念、基本现状和测评工具的基础上,分析了影响大学生异性交往的相关因素(包括生理变化、自我同一性、亲密关系),最后针对大学生异性交往的测评工具、现状探
采用柯布-道格拉斯生产函数建立蚕桑生产函数,对我国1991-2009年的蚕桑生产统计数据进行计量分析,探讨蚕桑生产中土地、劳动力、资本、发种量等因素的作用,并对比分析技术进
桃林口水库主要任务之一是供秦皇岛市城市用水,一期工程每年为秦皇岛市供水17500万m3,那么桃林口水库一期工程可维持秦皇岛市多少年不缺水呢?本文分析了秦皇岛市不同水平年水资
海派小说中并没有真正意义上的同性恋文学,只是表现了一些同性恋现象。虽然书写女同性恋行为本身具有现代性色彩,但是海派小说中的女同性恋的描写与同时期的丁玲等的创作相比