基于Hadoop的封闭直方图立方的设计与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:dasaqa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,企业需要处理的数据越来越多,而决定企业能否更好发展的关键因素之一就是如何从大量数据中获得准确的决策信息。OLAP就是为解决此问题而被提出来的,为了提高OLAP的查询性能,出现了数据立方体,它把汇总值提前计算出来并存储。然而完全的预计算将导致数据立方体的体积呈爆炸式增长,因此有必要研究降低磁盘存储空间的技术并寻找加快计算速度,提高查询性能的方法。数据立方预计算技术是把部分或全部聚集值预先计算出来,这样做存在一些缺陷,如不能使用约束条件对数据立方体过滤后进行聚集分析,导致数据立方体含有信息量较少。近几年来,企业面临海量数据的挑战,在传统的集中式环境下计算和存储数据立方体,不论在计算能力还是存储能力都存在缺陷。为了解决以上问题,本文在深入研究封闭数据立方体技术和Hadoop并行计算平台的基础上,设计并实现了封闭直方图立方。针对完全数据立方体体积巨大的问题,本文使用了封闭数据立方体技术,并在其基础上通过重组元组方法进一步压缩了数据立方体的体积。针对信息量少的问题,本文提出来一个面向多维聚集查询的通用模型,这个模型把多维空间中一个点值(具体汇总值)用一个统计直方图来替换,因为原始度量信息都有效保存,解决了上面提到的问题。针对大数据量以及统计直方图带来的空间开销,本文使用了Hadoop技术,它的MapReduce并行计算模型为数据立方的计算提供了技术支持,它的分布式文件系统HDFS为数据立方体的存储提供了保障。通过多台机器上同时计算封闭直方图立方加快了计算速度。为了加快查询响应并充分利用并行计算特点,本文提出了对封闭直方图立方并行建立倒排索引的方法,通过倒排索引检索数据大大减少了查询时间。本文又对倒排索引采用了两种压缩方法,有效减少了倒排索引的存储空间从而减小了对它的扫描时间,进一步加快查询速度。基于压缩的倒排索引,本文提出了并行环境下索引的求交方法,通过在Map端并行求交,在Reduce端部分求交加快了求交速度,提高了查询性能。通过实验及证明,本文所设计封闭直方图立方能够有效压缩数据立方体的体积,而对倒排索引使用的两次压缩效果非常明显。基于压缩的倒排索引查询能够快速地响应查询分析,同时封闭直方图立方具有良好的可扩展性。
其他文献
数据的爆炸式增长是信息化时代产生的一个严峻问题,而如何对这些海量的数据进行计算和处理,就需要用到数据挖掘。数据挖掘能从海量的数据中发掘出未知的、隐含的,且对于决策支持
办公业务具有比较明显的流程特征,将工作流技术应用到办公自动化中去是现在办公自动化领域的热点之一.我们使用工作流元模型来建立办公工作流模型,使用办公工作流模型来驱动
在当代,伴随计算机图形技术的快速发展,人们将其结合军事化演练特点,提出了新的虚拟化军事演练平台——虚拟战场。虚拟战场以模拟仿真技术和虚拟现实技术为基础,拥有高仿真性和高
随着Internet、电子商务和企业信息化的迅猛发展,人们对数据库系统可靠性和可用性要求日益提高。在众多数据库系统中,分布式并行数据库系统DPDBS(Distributed Parallel Database
不确定环境下的知识获取是智能信息处理中的关键问题之一。如何在信息不完全、不精确或模糊的情况下,根据决策系统中已有的决策数据获取知识,一直为众多学者所关注。近年来,基于
室性心律失常是心血管疾病最常见的临床表现,特点是心室快速紊乱地活动,继而导致其失去有效的泵血功能。在心血管疾病中,室性心律失常的致死率高达90%,其形成原因不仅局限于单个
针对目前软件系统向大规模方向发展和处理复杂业务的需求,该文希望能从目前的两项研究热点--多代理系统(Multi-Agent System:MAS)和设计模式(Design Pattern)的交集中寻求到
计算机和网络技术的发展和广泛应用,使得基于互联网的现代远程教育方式——网络教育,逐渐成为人们获取知识,实现终生学习的重要手段.网络课程是网络教育的重要资源,是通过网
多计算机系统中的互连网络为处理器之间相互通信提供了一种有效的机制,是决定系统性能的重要因素之一。本文使用概率方法对基于超立方体及其四种变体结构的多计算机系统的容
随着计算机技术和Internet的飞速发展,计算机系统已经由独立的单机模式转向开放、互联的网络环境,网络安全和信息安全问题日益突出,网络上各种攻击事件不断发生,相应的各种安全措