论文部分内容阅读
随着互联网的迅速发展和信息技术的广泛应用,由网络产生的数据量越来越庞大,而联机分析处理作为存储和分析数据的主要技术,需要存储与处理的数据量也相应的成倍增长,同时要面对巨大的计算量。由Google公司提出的MapReduce是一种能够在大型计算机集群上并行处理海量数据的框架模型,但是该模型在处理结构化数据方面有着先天的不足。因此,研究MapReduce与数据库相结合的联机分析服务器混合系统有着重要的意义。从系统需求、设计原则和设计目标三个方面对基于MapReduce与数据库的联机分析服务器查询处理系统进行了分析;设计了混合系统的总体架构,从层次结构和系统模块两个方面对系统架构进行了介绍,层次结构包括展现层、转换层、计算/调度层和存储层,系统模块包括分布式数据库存储优化模块、查询优化模块等,描述了系统的主要工作流程;扩展了多维查询语言,详细说明了多维查询语言的语法。在对联机分析服务器的优化技术方面,给出了存储和查询优化技术的实现方案。对于存储优化,定义了星型模式中事实表与维表的划分存储方式,并描述了事实表与维表的连接优化方案;对于查询优化,给出了改进后的QCTree的构造和查询算法,及其在MapReduce上的实现;分析了存储优化对查询效率的影响。最后通过实验表明基于MapReduce的联机分析服务器查询处理系统在事实表与维表的连接性能上与基于HDFS(Hadoop Distributed File System)的Hadoop系统相比有一定的提高,在查询优化方面与HDW(Hadoop Data Warehouse)系统相比较有一定的提高。