【摘 要】
:
随着信息产业尤其是互联网的高速发展,人们所能够获取的信息成爆炸式增长。对于PB级的数据处理已经成为越来越多机构的日常需求。本文详细介绍了当前海量数据处理的主流计算
论文部分内容阅读
随着信息产业尤其是互联网的高速发展,人们所能够获取的信息成爆炸式增长。对于PB级的数据处理已经成为越来越多机构的日常需求。本文详细介绍了当前海量数据处理的主流计算模型——MapReduce及其相关技术,并且对这些技术的优劣进行了详细的分析。并且在此基础上提出了一种新型海量数据计算模型——泛MR模型。泛MR模型是MapReduce模型的一个泛化版本,可以完成MapReduce能做的任何工作。但是该模型从计算流程、中间数据分配方式等方面对MapReduce模型进行了改进。在计算流程方面,系统不再使用Map任务和Reduce任务,而是使用Function任务。Function任务可以完成类似于Map任务或者Reduce任务的工作。但是一个Function任务可以有多个输入数据流,也可以有多个输出数据流。用户可利用Function和数据流构造一个有向无环图,从而完成计算流程较为复杂的任务。泛MR模型还增加了一种被称为远程combiner的机制,该机制类似于MapReduce模型中的Combiner机制,但是不同的是该机制可以对机架内的中间数据进行预处理。泛MR模型对于中间数据的分配采用够动态分配模式,该模式根据中间数据的大小以及分布来决定具体的分配方式,从而避免数据倾斜或者不合适的Function实例数目。泛MR相对于MapReduce在易用性、稳定性方面有明显提升。笔者还从日常海量数据处理场景中提取了一些具有代表性的测试用例,并且在集群环境下对这些测试用例进行测试。本文详细介绍了这些测试用例,并且给出了重要的原始测试数据。从这些测试数据中可以看出,泛MR系统在进行聚合计算、级联计算的时候,相对于MapReduce模型有明显提升;在进行分支计算的能够明显节约计算资源;在数据倾斜较大的情况下,动态分配能够提高计算效率;由于测试数据有限,我们未能充分测试远程combiner机制的效果。
其他文献
涪陵地区志留系具备有利的生储盖条件,具有较好的油气勘探潜力。然而,对于涪陵地区小河坝组砂岩储集层成岩作用、物性特征的研究程度较低。因此在大量收集、整理和分析前人研
空腹梁是空腹夹层板结构的基本组成构件,具有自重轻、用钢量省、截面形式合理、承载能力高、经济美观等优点。但是目前对于空腹梁刚度的研究并不全面,且并无对其破坏机理方面
为了避免润滑油泄露和有害润滑油添加剂对环境的影响,开发在水润滑条件下工作的摩擦副材料具有重要意义。然而,水粘度与润滑油粘度相比有较大的差别,且水润滑条件下运动机构频繁运转于混合甚至边界润滑区间,导致摩擦副固-固接触承担相当甚至绝大部分载荷,这对摩擦副材料的使用寿命和可靠性带来严峻的挑战。聚合物及其复合材料具有自润滑性、高化学稳定性以及性能可设计性等优势,作为水润滑材料具有广泛的应用前景。本工作系统
现今,随着经济发展水平的不断提高和社会的不断进步,环境质量却不断下降,转变经济发展方式、实现区域经济协调发展以及经济的可持续发展已经成为大势所趋,其中,跨区域产业转
教材是教师进行教学、搞好教书育人工作的具体依据,也是学生获得系统知识、发展智力、提高思想品德觉悟的重要工具。母语教材体现着民族的传统文化、人文精神和科学理念等全
随着桥梁结构形式不断向轻型化、长大化发展,桥梁在结构上变为一种柔性体系,对风的作用极为敏感,桥梁抗风设计已成为桥梁设计的一个关键性问题。由于湍流求解的困难,一般只能
近年来,可恢复功能结构体系已逐步得到关注和认可,其理念是将地震作用下的结构塑性损伤集中在可更替构件并降低结构残余变形,从而实现震后快速恢复使用功能和减少震后修复量
目的从保护肝脏线粒体和调控内源性抗氧化酶系统两个角度,选用急性酒精性肝损伤大鼠、刀豆蛋白A诱导的免疫性肝损伤小鼠两种常用实验性肝损伤动物模型以及乙醇损伤人胚肝细胞
云南牟定地区位于康滇地轴中南段。康滇地轴位于扬子地台西缘,其岩石、地层、构造复杂,历来都是矿产资源研究的重点地区。该区铀矿化类型多样,对于该区混合岩的铀矿化一直是
软件产品是一种具有易复制、易篡改、易散布等特性的数字产品,使得软件盗版蕴含着巨大的经济利益。针对软件盗版在我国呈现猖獗势头,软件版权保护技术成为近年来软件开发商和