论文部分内容阅读
随着信息时代的到来,企业需要处理的数据越来越多,而决定企业能否更好发展的关键因素之一就是如何从大量数据中获得准确的决策信息。OLAP就是为解决此问题而被提出来的,为了提高OLAP的查询性能,出现了数据立方体,它把汇总值提前计算出来并存储。然而完全的预计算将导致数据立方体的体积呈爆炸式增长,因此有必要研究降低磁盘存储空间的技术并寻找加快计算速度,提高查询性能的方法。数据立方预计算技术是把部分或全部聚集值预先计算出来,这样做存在一些缺陷,如不能使用约束条件对数据立方体过滤后进行聚集分析,导致数据立方体含有信息量较少。近几年来,企业面临海量数据的挑战,在传统的集中式环境下计算和存储数据立方体,不论在计算能力还是存储能力都存在缺陷。为了解决以上问题,本文在深入研究封闭数据立方体技术和Hadoop并行计算平台的基础上,设计并实现了封闭直方图立方。针对完全数据立方体体积巨大的问题,本文使用了封闭数据立方体技术,并在其基础上通过重组元组方法进一步压缩了数据立方体的体积。针对信息量少的问题,本文提出来一个面向多维聚集查询的通用模型,这个模型把多维空间中一个点值(具体汇总值)用一个统计直方图来替换,因为原始度量信息都有效保存,解决了上面提到的问题。针对大数据量以及统计直方图带来的空间开销,本文使用了Hadoop技术,它的MapReduce并行计算模型为数据立方的计算提供了技术支持,它的分布式文件系统HDFS为数据立方体的存储提供了保障。通过多台机器上同时计算封闭直方图立方加快了计算速度。为了加快查询响应并充分利用并行计算特点,本文提出了对封闭直方图立方并行建立倒排索引的方法,通过倒排索引检索数据大大减少了查询时间。本文又对倒排索引采用了两种压缩方法,有效减少了倒排索引的存储空间从而减小了对它的扫描时间,进一步加快查询速度。基于压缩的倒排索引,本文提出了并行环境下索引的求交方法,通过在Map端并行求交,在Reduce端部分求交加快了求交速度,提高了查询性能。通过实验及证明,本文所设计封闭直方图立方能够有效压缩数据立方体的体积,而对倒排索引使用的两次压缩效果非常明显。基于压缩的倒排索引查询能够快速地响应查询分析,同时封闭直方图立方具有良好的可扩展性。