基于MapReduce的不等式连接预处理方法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhangcwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与普及,传统的数据库技术已不能满足海量数据分析处理的新要求。连接是数据分析的重要手段,对大规模数据进行预处理,可以减少连接时不必要的处理开销。然而现有的基于MapReduce的连接预处理需要对数据集进行多次遍历,对于大规模数据集而言磁盘的开销很大,其更适合于对等式连接进行预处理,因此不能满足不等式连接预处理的需要。  基于MapReduce的不等式连接预处理方法(PPM),只需要对数据集进行一次读取并分析,可以减少不等式连接map阶段的输出,从而节省网络通信的数据量。PPM方法结合MapReduce编程模型的特点,在预处理的map阶段统计每个数据块的连接属性值的范围,在reduce阶段得到各个数据集连接属性的最小值和最大值,并根据它们的大小关系生成过滤状态表,并得到相应的过滤区间。在不等式连接的map阶段,忽略不符合过滤区间范围的记录,只传输符合条件的记录。同时,设计了基于集群感知的任务分配方法,根据不等式连接的开销模型和集群环境对任务完成效率的影响,得到一个当前环境下使得开销模型最小的Reduce任务数量。  实验结果表明,相比于没有引入预处理方法的不等式连接的处理时间,预处理方法的额外开销在4%之内;与基于直方图统计的M-Bucket-I算法相比较,使用基于PPM的1-Bucket-Theta算法的不等式连接作业的完成时间平均降低了34%。预处理方法在数据集的交集不为全集的情况下,能有效地过滤冗余数据;在数据集之间交集为空的情况下能直接节省整个不等式连接作业的开销。
其他文献
在当今的网络监控、电信数据管理、传感器数据监控等应用中,数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式,对数据的访问也是多次和连续的,并要求即时的响应
随着社会的发展,人们对安全验证方面的需要也日益迫切,人脸识别作为一种基于生物特征的识别技术成为了模式识别领域内的研究热点。它涉及图像处理、生理学、计算机视觉等诸多
超连续谱产生现象是指超短脉冲在介质中传输时由于介质的非线性效应导致脉冲的光谱被极大地加宽。它在高速光通信领域有广泛的应用。而光子晶体光纤具有丰富的非线性效应,是
一致性问题一直以来都是文件系统研究方面的核心问题和热点问题。随着新型材料的开发,存储级内存以其接近内存的良好读写性能和类似于磁盘的非易失性而在存储系统中发挥着越来
忆阻器作为一种新型的电路元件,相比于传统存储元件具有无源性、低耗能、高密度以及非易失等特性。忆阻器具有依赖于历史状态的动态连续可变电阻,这种特性与生物突触的行为具有
为了提高软件的开发速度,构件的使用越来越广泛。为了确保整个系统的安全性和稳定性,作为构件的使用者,对构件的测试显得尤为重要。但是,目前对构件的测试多采用传统测试方法,由于
随着Web服务技术的发展,数据库同Web服务相结合,利用数据库强大的数据存储和管理能力,将其存储的数据以Web服务的形式提供给外部使用,或获取外部的数据到数据库中使用,已经成
无线局域网技术以其灵活、可扩展性、实时性和低成本的优点获到了广泛的成功。但是,无线局域网媒体有信道开放的特点,存在比有线网更加严重的安全隐患,如不加以解决,势必对无线网
模糊推理和态势评估分别是模糊控制和高层次信息融合的核心内容,也是人工智能研究的关键理论和技术.本文对战术态势评估的理论和模型以及模糊逻辑系统的构造及其完备性进行了
相变存储器由于具有非易失性、功耗低、读取快、存储密度高等优点,被认为有可能取代目前的闪存和动态随机存取存储器而成为固态半导体存储器的主流产品。然而,相变存储器的耐久