列存储DWMS中的索引关键技术研究

来源 :东华大学 | 被引量 : 2次 | 上传用户:gdutzxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库作为当今热门的数据分析工具,为企业决策提供了有力支持的同时,也越来越引起人们的关注。数据仓库的数据量较为庞大,实现数据分析与决策支持的复杂功能需要解决海量数据的高效存取与快速即席查询两大重要课题。索引关注的是数据的存取机制,设计良好的索引不仅能够提供很好的数据组织方式,而且能够最大程度地提升查询的性能。传统的行存储方式,在数据库系统中表现出了较好的性能,广泛地应用于企业应用。然而,传统的行存储数据库并不能像处理事务应用一样为企业决策提供高效的查询分析。近年来列存储的数据库架构被重新审视,对于数据仓库与分析支持应用中读优化的查询型工作,列存储表现出比行存储具有更加显著的性能。现有列存储的商业数据库系统、专利系统和开源系统等,都在商业智能和数据仓库应用环境中,体现出了列存储方式较行存储方式明显的优越性。索引技术是提升海量数据存取和数据查询效率的关键技术之一,在列存储的DWMS中尤为重要。本文以索引技术在列存储DWMS中的应用为核心内容,重点分析了B+树索引在列存储DWMS中的实现技术及其改进方法,并提出了列存储DWMS中的连接索引。传统的B+树索引在更新事务环境中具有较好的性能,然而在面向列存储的分析型数据仓库查询环境下,时间空间代价较大。本文根据列存储数据仓库查询环境的特点,提出一种新型树型索引——RB+树(Reduced B+-Tree)。该索引对传统B+树结构进行了改进,并结合自底向上创建索引树的方法,使得索引的空间利用率、创建和查找效率得到显著的提高。将RB+树应用于列存储数据仓库中,建立了行号索引、列值索引,特别的为解决星型模型中多表连接问题,提出了连接索引,有效地提高了列存储数据仓库中元组重构与多表连接的效率。在数据仓库基准数据集SSB上的实验结果验证了本文方法的有效性。
其他文献
如今,主题模型已经被广泛应用于文本分析中。一些已经问世的主题模型,比如基于概率的隐式语义分析法(Probabilistic Latent Semantic Analysis,PLSA)以及它的一些改良模型,在挖掘文
无线自组织网络是一种特殊的无线通信网络,网内所有节点地位平等,无需任何中心节点或固定基础设施的支持,各个节点通过分布式算法相互协调完成网络的通信功能。路由协议是无
阐述唐汉钧教授治疗下肢慢性溃疡的学术观点和临证经验.唐教授提出下肢慢性溃疡以“虚”“瘀”为本,“邪”“腐”为标,本虚标实,虚实夹杂为病机特点,治疗上立“补虚祛瘀生肌
用中医理论探索糖尿病皮肤病变的发病原因及病理机制,为临床糖尿病皮肤病变处方用药提供思路.利用脏腑辨证、气血津液辨证和微观辨证的方法,探讨本病的中医发病机制.脏腑辨证
随着近年来现代网络技术突飞猛进的发展,互联网络的总体规模和业务类别都发生了很大改变,网络核心路由交换设备在带宽和QoS保障等性能方面都面临着严峻挑战,具有QoS保障的T比特
随着食品企业客户数量的不断增加、产品批量销售额的不断提高,为保证管理系统能够满足当前企业的发展需求,我们运用科学的分析与管理方法提出创新的企业管理支撑体系,使企业立于
电子商务已经成为贸易自由化、经济全球化的重要手段,同时也是传统产业变革的关键推动力。电子商务能节约商家进行商业活动的成本,简化商务活动的流程并缩短其运行周期,进而