基于MapReduce的联机分析服务器查询处理研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wufang78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展和信息技术的广泛应用,由网络产生的数据量越来越庞大,而联机分析处理作为存储和分析数据的主要技术,需要存储与处理的数据量也相应的成倍增长,同时要面对巨大的计算量。由Google公司提出的MapReduce是一种能够在大型计算机集群上并行处理海量数据的框架模型,但是该模型在处理结构化数据方面有着先天的不足。因此,研究MapReduce与数据库相结合的联机分析服务器混合系统有着重要的意义。从系统需求、设计原则和设计目标三个方面对基于MapReduce与数据库的联机分析服务器查询处理系统进行了分析;设计了混合系统的总体架构,从层次结构和系统模块两个方面对系统架构进行了介绍,层次结构包括展现层、转换层、计算/调度层和存储层,系统模块包括分布式数据库存储优化模块、查询优化模块等,描述了系统的主要工作流程;扩展了多维查询语言,详细说明了多维查询语言的语法。在对联机分析服务器的优化技术方面,给出了存储和查询优化技术的实现方案。对于存储优化,定义了星型模式中事实表与维表的划分存储方式,并描述了事实表与维表的连接优化方案;对于查询优化,给出了改进后的QCTree的构造和查询算法,及其在MapReduce上的实现;分析了存储优化对查询效率的影响。最后通过实验表明基于MapReduce的联机分析服务器查询处理系统在事实表与维表的连接性能上与基于HDFS(Hadoop Distributed File System)的Hadoop系统相比有一定的提高,在查询优化方面与HDW(Hadoop Data Warehouse)系统相比较有一定的提高。
其他文献
随着网络资源的不断膨胀,信息的不断增多使得人们获取有价值的信息变得越来越困难。而Tweets、微博等短文本的发展和流行,使得人们更加无法从中获取更多感兴趣的内容,拓展命
随着多媒体技术、建模仿真技术和网络通信技术等一系列信息技术的发展,虚拟实验在诸多学科的作用越来越显著。而传统的单学科虚拟实验系统在实现上没有统一的标准,实现方法差异
实时数据库被广泛应用于市场预测、制造工程监控、传感器网络、军事指挥系统等领域,这些应用产生的数据往往存在不确定性。而传统的实时数据库不能有效管理不确定数据,因此有必
当下物联网领域最主要的非接触式通信技术就是射频识别。但射频识别的应用受到很多不确定因素的影响,其中最主要的是信道冲突问题,也就是常说的标签碰撞。为了解决碰撞问题,研究
在以机械磁盘为存储介质的计算机系统中,数据读写操作的效率和可靠性将直接影响整个计算机系统的性能和稳定性。为了在存储介质的读写速度、容量以及成本价格方面做出权衡,现代
随着网络技术的飞速发展,特别是P2P技术的普及,数字媒体的复制和传播变得更加容易,相应的媒体内容的版权保护问题变得更加复杂,因此迫切需要更为先进的数字版权保护技术来加强节
日志型文件系统保证了在服务器宕机时能够通过日志进行快速的文件系统一致性检查和恢复,因此被广泛使用。但文件系统日志存在对文件系统性能,尤其是写性能造成了一定的影响。而
随着云计算时代的到来,越来越多的数据被放在云端统一向用户提供相应的服务,如何保证数据实时在线、可服务已经成为一个重要的研究方向。目前,服务高可用性的研究仍处在初级阶段
由于RDF(Resource Description Framework)数据具有表达灵活,数据交换方便等优点,其数据量在以惊人的速度增长。传统的RDF数据存储系统或以关系数据库为存储后端,或以本地存储方式
光盘认证系统是网络认证服务思想的一个实现案例,它给红光高清播放机提供了通过网络认证获取音视频光盘播放密钥,并且按次计费的服务。在此基础上,扩展的网络认证服务器实现了更