MapReduce下区间连接方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wfljk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,全球数据倍增,为大数据的分析和处理带来了困难。Map Reduce作为新兴的数据密集型计算编程模型,在大数据分析与处理方面发挥了重要的作用。而区间连接是属性取值在一个范围内的连接运算,是大数据分析和处理的重要运算,如何利用Map Reduce编程平台提升区间连接的效率具有重要的意义。在Allen提出的区间元组概念、区间元组关系的基础上,设计了一种基于集合分类实现二路区间和多路区间的连接算法。首先将参与运算的区间元组根据区间范围均匀划分成若干个分区,根据元组与分区是否有交集,将元组映射到相应的分区集合,对每个元组在分区中的位置进行分类,定义了四种类型的集合分类,并分析了每个分区中四种类型集合分类占分区数据总量的比例。其次用Map Reduce分布式编程框架编程实现二路区间和多路区间连接算法。通过四种集合分类构建的键值对可以过滤掉不需要参与连接的元组,减少Map端数据传输量和Reduce端数据计算量,提升区间连接的效率。最后,根据各个集合分类占各个分区数据总量的比例,分别制定二路区间和多路区间的负载均衡策略,重新组合各个分区之间的集合分类生成新的键值对,均衡各个Reduce节点收到的数据,以进一步提高区间连接作业的完成效率。在搭建的分布式Hadoop平台下分别对二路区间连接和多路区间连接方法进行了有效性的验证。实验结果表明,基于集合分类的区间连接方法能适用于多种情况,相比已有二路区间连接和多路区间连接方法具有一定的优势,并且制定的负载均衡策略能进一步提升效率。
其他文献
随着社会的进步,科技的发展,电子文本信息大量出现,为了快速高效地获取文本主旨内容,自动文摘以其简便快捷的优势油然而生,本文设计并实现了基于语义网络的处理英文文本的自动文摘
目前,随着现代工业及信息技术产业的发展,嵌入式系统被日益广泛的应用。嵌入式设备的网络化已成为一种必然的发展趋势,这样就可以利用网络实现局域或全球范围内的远程监控。
现代通信技术正处于高速发展期,核心网作为通信网的重要组成部分,其技术在不断进步。核心网的全IP化是一个不可避免的发展趋势。GGSN是移动通信网分组域的核心设备,为满足移
道路交通标志识别作为智能交通系统一个重要的组成部分,在驾驶安全方面有着重要作用。近些年,道路交通标志识别问题的研究引起人们关注重视。围绕交通标志识别问题本文进行了如
为了支持农村饮用水安全状况调查,我们受陕西省水利厅委托开展了本课题研究开发。其目标是分析和汇总农村饮用水安全状况调查所得的各类数据,确保数据有效规范性,提高工作效率,为
随着多核硬件的不断普及,并发程序编程的使用也越来越频繁,如何解决并发程序中出现的错误也越来越受到人们关注。在并发程序执行过程中,由于线程调度的随机性,使得人们对并发
本文在对运动目标识别与跟踪算法分析的基础上,将新兴的基于GPU的单机并行计算技术用于运动目标识别与跟踪算法的研究中。主要研究了基于CUDA目标的预处理过程,传统运动目标的
近几十年来,传统的确定性数据(deterministic data)管理技术得到了迅猛的发展,在国民经济建设中起到了突出作用。在传统数据库的应用中,数据的存在性和精确性均确凿无疑[1]。
随着网络的快速发展,网络上存在的信息资源也迅速增长,传统的检索结果以线性列表的形式返回,缺乏有效的过滤、组织和汇聚,无法很好地体现文档之间存在的内在关联,而且展示方
随着教育事业的快速发展,考试在各个领域的应用变得十分广泛,因此对考试的研究也越来越深入。当前,指导考试研究的理论主要有经典测量理论和项目反应理论。经典测量理论由于