基于MapReduce的数据聚集运算处算法研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:hhh491371886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化技术的不断深入应用,特别是网络技术的迅速发展,导致了数据的规模急剧增长。因此,如何保证海量数据的有效存储和管理,提高针对海量数据的处理效率成为人们日益关注的焦点。聚集运算是数据预处理中最典型操作之一,对提高查询效率有着非常重要的意义,但是聚集运算非常耗费计算资源,特别是针对海量级别数据的聚集运算,更是需要巨大的计算能力和存储能力,而普通的PC机难以提供这样的计算资源,所以研究适合海量数据的聚集运算具有重要意义。  本文通过详细研究了Google的分布式文件系统(GFS)以及MapReduce并行计算框架,充分利用该分布式文件系统的高扩展型、高容错性等特性,结合MapReduce在处理大规模数据集时的并行性处理特性,提出了一组面向海量数据的数据聚集运算算法,该组算法主要包括基于MapReduce的关系型数据的选择、投影以及等值连接等算法,并在此基础之上,实现了基于MapReduce的计数(Count)、求和(Sum)、均值(Average)、最大值(Max)和最小值(Min)等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。该套算法充分利用了集群系统的计算能力和存储能力,以及集群系统的网络带宽,极大的提高了海量数据的聚集运算效率,有效地减少了的运算时间,提高了基于聚集运算结果上的数据查询效率。  本文还在以上聚集运算算法的基础上,实现了基于MapReduce的全局封闭数据立方体生成算法,以及在全局封闭数据立方体上的查询算法。实验表明该算法充分发挥了集群系统的并行处理能力,可以高效的生成全局封闭数据立方体以及快速的完成在其上的查询任务。
其他文献
序列模式挖掘是从大型时序数据库中发现事件之间存在的隐藏的、有趣的序列关系,挖掘出基于时间或者其它顺序的出现频率高的频繁序列模式。它弥补了关联规则挖掘不能反映事件在
在过去几十年里,传统的关系数据库管理系统(RDBMS, Relational Data-Base Management System)在数据管理方面发挥了重要的作用。但是,近年来随着计算机应用技术的不断发展,数
图像变形根据一定的变形函数将源图像映射到目标图像以产生图像的局部变形,该项技术可以被广泛应用于虚拟现实、动画、医学图像处理以及影视娱乐等各个领域。映射分为正向映
信息检索技术是当前最热门的研究课题之一,它主要研究如何从海量信息中快速准确的查找到用户需要的信息。但在实际应用中,由于用户查询描述方法的局限性,系统返回的检索结果
随着互联网规模的不断扩大,其中蕴含的信息和数据也在持续增长。信息抽取技术的目标是从互联网中的海量无结构化数据中挖掘出结构化的数据。实体关系抽取是信息抽取的子任务,
射频识别(Radio Frequency Identification,RFID)技术是从上世纪80年代走向成熟的一项自动识别技术,近年来发展十分迅速。 本论文首先充分分析了RFID技术的特点,在其基础之上
旅行商问题(TSP)是来源于实际应用的一个非常重要的组合优化问题。该问题的研究对于实际运用和科学研究都有着重大的意义。本文主要通过研究局部搜索算法和演化计算方法来更
无线传感器网络是由部署在监测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织的网络系统,其目的是协作地感知、采集和处理网络覆盖区域中感知
中国高速列车的研究起步较晚,但其发展却十分迅速。在高速列车设计过程中,无疑需要对高速列车进行三维列车实体和自然场景模拟的虚拟现实仿真,直观的得到高速列车运行反馈,以
计算机辅助优化排样是计算机辅助设计与制造(CAD/CAM)技术的重要分支之一,解决的问题就是在给定的原材料上放置所需求的各种毛坯零件,使毛坯的布局最优,目的是在满足毛坯需求