基于MapReduce的连接方法研究

被引量 : 0次 | 上传用户:java777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随网络和云计算技术的飞速发展,全球数据倍增,数据量级已达TB、PB级,形象地被称为海量数据或者大数据。同时,数据背后隐藏的信息的价值也越来越高,不仅能为拥有这些数据的企业提供决策和商机,也能为人类享受更加方便、智能、快捷的服务提供支持。数据的种类越来越多,结构更加复杂,各种结构化、半结构化、无结构数据产生于各种各样的应用环境中,人类迎来了大数据时代。大数据时代背景下,数据的价值受到了前所未有的重视,人们将越来越多的目光投向大数据分析与处理。传统的关系数据管理和分析、并行计算技术由于其自身的限制不能应对大数据带来的挑战,需要新的理论和技术来支撑大数据的分析和处理。MapReduce作为新兴的数据密集型计算编程模型的代表,由于其具备良好的可扩展性,高的容错性和可使用廉价机器代替昂贵的服务器等优势,在大数据分析与处理方面发挥了不可替代的作用,但是它不直接支持连接,增加了分析和处理关系型数据的难度。连接是一种基础的关系代数运算,是分析和处理关系型数据的有效手段。现有的基于MapReduce的连接方法大多只关注等值连接,但是大数据的深度分析工作仅仅靠简单的等值连接是无法完成的,需要MapReduce有效处理更复杂的连接类型,比如叉积、θ-连接等。仅有的关注θ-连接方面的研究,或者描述不够详尽,难于理解和实现,或者不能适应多变的计算环境。基于以上原因,本文提出了一种简单而有效的θ-连接处理方法,简单体现在思想简单易懂,描述详尽;有效体现在能够根据不同输入设置Reducer个数,适应多变的计算环境。该方法命名为Adaptive Share MapReduce Theta(ASMRT),含义为基于MapReduce的可调整份额的θ-连接算法。该算法包括MapReduce Theta(MRT)和Adaptive Share(AS)两部分,AS算法根据各数据集的记录数量,设置合理的权衡因子,求解各数据集的份额和Reducer个数;MRT算法根据各数据集的份额和Reducer个数完成θ-连接。算法的理论模型MRT分区模型采用与连接记录无关的量对数据集进行逻辑划分,既符合MapReduce处理任意连接条件θ-连接的分区逻辑,使得MapReduce处理θ-连接成为可能,又可从本质上避免由于数据集中记录的键值分区不均而引发的数据偏移问题的发生。为验证MRT算法的可行性与AS算法的有效性,本文实现了ASMRT算法,构造有代表性的例子对AS的有效性进行了分析;从关系代数理论分析了MRT算法;结合抽象例子将MRT算法与SRJ算法进行对比分析,结果表明ASMRT能够利用一次MapReduce过程简单而有效地处理任意连接条件的多路θ-连接。
其他文献
豫北平原的沙质草地分布于黄河多次泛滥改道冲积形成的沙丘、沙地。其主要类型有 :1以白茅、达乌里胡枝子为主的草从草地 ;2刺槐、杨树等林地下层以藜、白茅、茜草等为主的林
<正>当前,文化市场日趋多元化,文化品种之间的竞争日益激烈,社会文化消费的投入有很大的选择性,这给博物馆带来了很大影响。与此同时,近几年来公众对文化消费的观念有了较大
会议
目的:研究不同年龄哮喘儿童的中医体质分型。方法:150例根据资料调查患者的饮食习惯、生活习惯、体质特征和心理表现、发病原因、家族史、对外界的适应能力等,并且按照《中医
随着移动互联网和大数据时代的到来,全球的信息存储量正在呈现爆发式增长,为了能够有效的管理和利用互联网上的海量数据,以云计算平台为基础的云存储技术在近几年得到了飞速的发
目的:旨在运用流行病学方法对特禀体质的分布及特禀体质人群生命质量进行初步研究。方法:采用《中医体质分类研究》调查问卷对自然人群进行调研,并利用简明健康状况调查问卷S
道路客运小件快运服务是一种利用客运线路和客运班车剩余行李舱搭载小件的新兴快运服务方式,本文针对客运小件快运服务网络设计问题进行研究,对于优化资源配置,提高服务水平,提升
工业门是工业厂房和物流仓库的配套设施,伴随着工业化进程的加速发展和物流仓库现代化水平的不断提高,工业门领域也在不断的发展,人们对于工业门在使用功能和安全方面的要求也在
以“三级联创”的活动方针为指导,中国能建兰州电力修造有限公司深化四项工作制度,构建四个服务平台,建立四项长效机制努力打造学习型组织。中国能建兰州电力修造有限公司(简
期刊
全髋关节置换术(total hip replacement,THR)是20世纪以来外科学界最伟大的发明之一。它能够改善和提高各类非功能性关节病患者的生活质量、工作能力[1]。英国的骨科医生John Ch