数据立方体的物化算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:ayin2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库的广泛应用和发展,人们不再仅仅满足于一般的数据存储和业务处理,而对系统提出了更高的要求:提供决策支持。目前,数据库已经广泛投入到了各行各业的应用当中,作为数据库的进一步发展研究成果--数据仓库,它与数据库的主要区别在于数据库是面向事务的,而数据仓库是面向主题的。数据仓库是实现商业智能的数据基础,是企业长期事务数据的准确汇总。自从数据仓库概念出现以来,不同学者从不同的角度给出了多种数据仓库的定义。目前,业界公认W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义最具权威性。W.H.Inmon将数据仓库定义为:“数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于管理决策制定过程。”   数据立方体也称为多维数据集,是联机分析处理OLAP(On-Line Analysis Processing)[1]系统的核心,为用户数据构建了多维视图,允许用户从多个观察视角来观察和分析感兴趣的数据。1993年,关系数据库之父Codd定义联机分析处理OLAP[2]:“OLAP是一个用于描述动态的企业分析的名词,这些分析通过有注释的、经过熟思的以及公式化的数据分析模型来生成、操作、激活和合成信息。OLAP组织在文献[3]中给出了如下定义:OLAP是使分析人员、管理人员或执行人员能够从多角度对企业数据(这些数据是从原始数据中转换得来的,反映了用户所关心的企业的多维性)进行快速、一致、交互地存取,从而获得对数据更加深入了解的一类软件技术。在OLAP环境下,维(Dimension)和度量(Measure)是数据立方体中最基本的概念,数据立方体是由维构建出来的多维空间,包含了由度量表征的数据。   数据仓库中使用较多的技术是将频繁使用的查询结果进行物化(materialize),该技术也称为预计算技术(pre-compute)[4]。同时也物化一些与查询相关的数据表来提高查询效率。物化又称为聚集,聚集是OLAP计算涉及的最重要的一个方面。为了得到较快的系统查询响应时间,数据立方体物化的计算性能成为应用中的瓶颈,物化计算的性能直接决定了立方体的查询响应时间。目前,立方体采用的物化技术一般为物化视图(MaterializedView,MV)。物化视图是提前计算并保存常用的查询信息,这些查询信息按照属性分组进行计算,最后查询时直接在这些结果中进行查询。通常情况下,系统在OLAP数据库中,预先实现不同层次和不同维属性集合上的物化。当系统把所有可能的物化都实现时,就成了全物化,该情况下查询性能达到最佳。然而,这种方法需要海量的存储空间和巨大的更新维护代价。因此在存储空间较低或者要降低维护代价时,采取部分物化,仅物化其度量值大于某个最小阈值的方体单元。部分物化是实际系统开发中经常采用的方法。   本文研究了在数据仓库的环境下实现数据立方体的计算方法,分析了物化的计算效率如何影响数据仓库的查询效率,也就是数据仓库的查询等操作的响应时间,重点讨论了数据立方体的部分物化和全物化。   文中首先介绍了数据仓库的概念和基本特征,阐述了其发展历程以及结构特点。给出了联机分析处理(OLAP)的理论基础,重点论述了数据立方体的概念、多维模型和实现方案。然后,重点介绍了数据的计算技术及其物化,在此基础上详细介绍了冰山立方体的计算方法和多路聚集计算方法实现。最后,针对现有数据立方体物化现状,提出并实现了采用改进的贪心算法选择部分物化视图和改进的多路数组方法的方体的全物化的算法。   (1)实现了采用贪心算法选择部分物化视图。实验对象为选择物化某高校教学教务管理系统中的学生成绩数据。如果不用物化视图,那么所有的聚合、求平均等操作都要由原始的学生成绩表中查询获得,查询代价较高。采用物化视图所带来的好处,减少查询代价。物化视图所提供的总空间不同,所减少的查询代价也不同。空间大小与减少的查询代价是成正比的,即所提供给物化视图的空间越大,所减少的查询代价也越大。针对空间有限的问题,采用贪心算法选择部分物化的对象。(2)论文用多路数组算法对数据立方体进行全物化:首先将所有的扫描次序需要的内存数量都计算出来,然后将需要内存最少的扫描次序作为最优次序,对数据立方体进行聚集计算。这种计算方法的计算量十分庞大,基本上以枚举的方式寻找最优的扫描次序。该算法的时间空间复杂度都较高,在实际操作中可以采取以下方法:   立方体anbncn中,存在维ABC,当A
其他文献
网页信息抽取是指从网页中(半)自动获取用户感兴趣的信息,其在信息检索、舆情监测等应用中非常广泛。然而现有的研究只注重精确度、召回率等传统指标,忽略了分析各类特征在抽取
基于QoS的主动兴趣管理技术将QoS引入主动兴趣管理系统,为用户提供可靠的服务保证,一定程度上提高了分布式虚拟环境的可扩展性。随着用户对于协作要求的越来越普遍,分布式虚拟环
随着科学技术的发展和进步,人类航天活动也越来越频繁,深空探测越来越受到各个国家的重视,近年来我国对深空探测也加大了投入。开展深空探测对于科技进步和人类文明的发展有着促
学位
数据库入侵检测技术是数据库安全的重要组成部分。目前的入侵检测系统采用模式匹配方法,虽然对已经存在的攻击具有很高的检测效率和正确率,但对很多未知的入侵攻击行为和方法
当今,Web应用已经成为人们获取信息、交流情感、开展工作、处理日常事务等的重要工具。它们改变了、并正在改变着人们的生活方式。为确保Web应用拥有者和使用者的利益必须开发
随着计算机与信息技术的发展,数据挖掘技术已经广泛应用到人工智能、模式识别、生物信息等许多领域。当前,复杂类型数据的挖掘需求上升,专家学者开始关注这方面的新应用和理
复杂网络可以用来描述社会关系网络、生物网络、通信网络、网页链接关系等真实网络。从20世纪90年代,复杂网络概念提出之后,很多不同领域的研究者都开始关注复杂网络的研究,但是
工业生物技术知识环境建设及其e-Science应用是中国科学院信息化专项项目,本文即是以工业生物技术知识环境建设为项目背景展开。   工业生物技术(Industrial Biotechnology
概念知识是根据面向对象原理定义词汇涵义。本文提出此方法,以属性名及属性值定义一个词,将某一领域内的词汇构成层次或继承关系图,并按照表的形式将此图存储于数据库中,由此
本文以提高回归测试成本效益为目标,对黑盒测试集优先化技术展开研究。成功软件在整个生命周期中会经历持续变更,造成回归测试频繁发生且开销巨大。提高回归测试成本效益一直是