压缩的列存储数据的查询优化研究与实现

来源 :东华大学 | 被引量 : 3次 | 上传用户：flysnake

【摘要】

：

传统的写优化数据库管理系统多数采用按行存储的方式,而对读优化的数据仓库管理系统而言,列存储表现出比行存储更加显著的性能。这是由于列存储技术是将数据表以列为单位进行

【作者】

：

李海燕

【机构】

：

东华大学

【出处】

：

东华大学

【发表日期】

：

2011年01期

【关键词】

：

列存储数据压缩数据解压查询优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的写优化数据库管理系统多数采用按行存储的方式,而对读优化的数据仓库管理系统而言,列存储表现出比行存储更加显著的性能。这是由于列存储技术是将数据表以列为单位进行存储,在查询中能有效避免读取无关的列,从而获得较高的查询效率。由于数据仓库中存储的信息量非常庞大,如何对这些庞大的数据进行有效的管理对数据仓库管理系统来说是一个巨大的挑战。解决这个问题的一个有效的方式就是采用数据压缩技术。因此,如何对压缩的列存储数据进行查询及优化的研究变得十分有意义。本文以东华-达梦数据库技术联合实验室“DWMS原型系统设计与实现”项目为背景,主要工作包括：1)对目前存在的一个基于字典的保留顺序的字符串压缩方法进行研究,在继续延用原方法中共用叶子的索引结构的同时,对原压缩方法进行了改进,提出了一个新的基于概率的字符串压缩方法,能快速的将字符串属性进行压缩和解压,降低了系统对压缩数据的查询时间。2)在列存储的数据经过压缩之后,对压缩数据上的查询策略进行了研究。首先将传统的代价模型进行修改,为了使其是基于压缩的,新增了数据压缩和解压的代价。然后针对必须要求解压的数据,研究如何合理的选择解压时机来进一步降低CPU消耗。最后给出了在压缩的数据上进行查询操作的一些具体算法,包括压缩数据的选择、连接和聚集操作。3)根据压缩的列存储数据的特点,并结合现有的数据库查询优化方法,提出了对压缩的数据进行查询的一些优化策略。为了便于对数据的快速检索和提高查询的速度,研究了索引结构和临时表的合理选择。然后对查询中经常存在的谓词和子查询进行了优化重写策略,最后给出了压缩数据上的选择和聚集操作的优化算法。4)采用本文提出的基于概率的保留顺序的字符串压缩方法对DWMS中的字符串属性进行压缩,对字符串的压缩效率进行了实验比较。然后将本文提出的一些查询优化策略应用于DWMS中经过压缩的数据,并对经过各种优化策略优化后的查询的执行时间进行了一系列实验测试。本文提出的基于概率的字符串压缩方法能快速的对字符串属性进解压,从整体上降低了系统的查询时间,达到了查询优化的目的。同时本文提出的一些优化策略使得查询可以直接在压缩数据上进行,无需解压,实现了压缩数据的查询优化。

其他文献

社交网络中个体情感反应机制和群体情感预测研究

不同领域的研究者们提出了大量的理论和模型来解释个体情感的产生、变化和传播方式。随着社交网络的迅猛发展,其简单、实时、高效、开放的信息发布特点为研究者们提供大量的

学位

情感动力学情感分析公众情感预测社交网络

虚拟桌面中外部设备支持机制的研究

随着桌面虚拟化技术的发展,虚拟环境下计算机外围设备的应用开始备受关注。人们希望在虚拟计算环境中,应用程序可以使用远程USB摄像头进行聊天,或者使用远程USB打印机打印本

学位

虚拟计算环境虚拟外设总线驱动外部设备虚拟摄像头虚拟U盘

基于元模型的软件可信评估方法及工具实现

随着软件应用的不断深入,软件可信性受到了高度关注,形成了围绕“软件可信性”的新的研究热点。软件可信评估是可信性研究中的一个基本问题,在软件可信性保障活动中占据了极

学位

软件可信可信评估属性模型证据模型评估指标体系本体

基于多话题的大规模社会网络影响力最大化研究

近些年来,影响力最大化问题已经是数据挖掘领域炙手可热的研究方向,并且普遍应用于社会网络分析。然而,现有大部分研究在寻找最具影响力的种子节点的同时忽略了一个事实,那就

学位

影响力最大化大规模社会网络多话题敏感的传播模型地理位置并行化

P2P环境中基于簇的信誉研究

P2P因其独特的优势逐渐成为Internet中重要的组成部分,但是随着P2P技术的广泛应用,暴露出严重的安全和自私问题：(1)安全问题。由于P2P网络缺少第三方的安全监管,也没有相应的

学位

P2P信誉簇安全信任网络

基于聚类分析的网络论坛热点话题检测

话题检测技术作为话题检测与追踪的重要组成部分,目的是要解决从文本信息流中自动识别各个未知的话题,并且能够在线发现新话题。在话题检测技术中,热点话题检测是为了识别特

学位

网络论坛信息抽取特征选择文本聚类热点话题检测

连续空间模型下的统计机器翻译

自然语言(人类语言)，是指一个基于文化特点的，用于正式场合正式场合的交流系统[1]。自然语言处理（计算语言学)是指应用于学习、理解和产生自然语言的计算技术[2]。统计机器翻译

学位

统计机器翻译连续空间特征提取双语图语义自动学习

Hadoop的安全加固研究与实现

学位

CMP中共享L2Cache失效预测算法研究

在典型的多核处理器(CMP,Chip Multi-Processor)体系结构中,多个处理器核共享二级高速缓存,这种方式不仅能够提高高速缓存的利用率,还能避免存储器硬件资源的浪费。在共享的

学位

单芯片多处理器二级高速缓存堆栈处理循环序列

基于ARM的物流分拣控制系统研究

本文通过分析RS485接口的工作原理和特性,自行定义了通信协议,研究设计了基于ARM的物料分拣控制系统,该系统是以PC机为控制上位机,以ARM嵌入式控制模块为中间控制器,以AT89S5

学位

ARMLogisticsU-BOOTLINUX内核分拣作业电子标签

压缩的列存储数据的查询优化研究与实现

其他学术论文