列存储内存数据库的压缩算法的应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：wgy_2003_9

【摘要】

：

近年来随着各个行业数据量的大幅度增长，如金融，电信行业等，使得存储费用和管理费用也随之增长。面对信息量不断膨胀的问题，数据库系统采用压缩数据的方法保存数据，同时为了提高压

【作者】

：

陈陈

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2010年期

【关键词】

：

数据库系统列存储压缩态访问数据压缩

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着各个行业数据量的大幅度增长，如金融，电信行业等，使得存储费用和管理费用也随之增长。面对信息量不断膨胀的问题，数据库系统采用压缩数据的方法保存数据，同时为了提高压缩比和便于OLTA（在线事务分析）统计分析的需求，也采用了列存储数据的方法。　　在列存储压缩数据库的使用中，面临着如何提取源数据的问题，经过压缩后的数据需要解压缩后才能提取数据，为了避免全体解压缩后再提取数据的弊端，需对压缩算法进行选型，要求压缩算法能够在压缩态直接提取源数据，而不必全体解压。但是这种在压缩态直接提取源数据的方法，有其自己的弊端，就是在压缩态直接提取数据的时候，需要从头遍历压缩态数据，这样会浪费大量的时间，尽管在C_STORE中提出了分块压缩的思想，但是在本质上没有减少磁盘的IO，本文以此为切入点，对于能够在压缩态提取数据的压缩算法加以共性的优化。首先优化了现有的分块压缩的思想。原有的分块压缩技术之所以没有成功的减少磁盘IO，是因为压缩后的数据块头部之间在磁盘上的间隔距离过小，在数据库块间定位的时候，无法避免磁盘的连续读取，为了解决此问题，本文给出了一个典型的解决办法，加大块的压缩粒度，从而增大了数据块的头部之间在磁盘上的间隔距离，在块间寻址的时候，可以跳跃大量不必要的磁盘块，从而减少了磁盘IO。其次，为了进一步提高压缩态数据的提取速度，本文给出了“千存零取”机制，目的是提高块内提取数据的速度。以1000个数据为基准，每整千个数据的块内偏移记录在块的头部字段内，当提取数据的时候，可以在头部立刻定位到附近的一个整千位的数据，然后再以此为始遍历数据，这样大量的减少了块内提取数据的速度。　　经过测试验证，优化后的压缩方法，能够大幅度提高数据提取的时间，理论上能够节省(1-R/m)*100％的时间，其中4<=R

其他文献

复杂场景下的背景建模算法研究

近些年来,背景建模算法在计算机视觉领域得到了广泛的应用,如视频监控、目标跟踪、人体行为识别、车牌检测等。与此同时,背景建模算法的应用环境也发生了较大变化,从静止的室

学位

背景建模算法区块像素复杂场景

机器人环境检测与运动控制的三维仿真研究与设计

随着科技发展,机器人产业的应用和需求与日俱增,人类生活各领域如工业、农业、教育、国防等逐渐出现机器人的影子。因此,机器人学是一个重要且极具广泛应用价值的研究课题。

学位

机器人环境检测运动控制三维仿真传感器人机交互

XML动态更新算法CSSU的改进研究

XML以其扩展性、结构性、平台独立性和自描述性等诸多特性，越来越多的信息采用XML格式进行存储和交换，XML已经成为Web上信息表示和交换的标准。大量XML数据的出现给XML的存储和

学位

XML数据动态更新算法CSSU编码索引技术

生物医学文献中命名实体的识别

生物命名实体识别是生物医学文本挖掘的关键步骤,只有正确地识别出生物命名实体,才能有效地完成基因（蛋白质）标准化和蛋白质-蛋白质相互关系抽取等更加复杂的工作。然而,由于生

学位

文本挖掘命名实体识别生物命名实体识别机器学习

基于视觉描述子的图像检索与分类方法研究

随着个人媒体设备的快速普及和互联网技术的出现,现实生活中图像的数量急剧增长,因此如何快速有效地组织和管理这些图像成为一个研究热点。与此同时,各种新兴技术的迅速发展

学位

图像检索图像分类视觉描述子词袋模型粗糙集

基于代码重构和页面故障技术的隐蔽调试机制研究与实现

恶意代码作为信息技术的衍生物,对网络安全领域的威胁日益严重。恶意代码分析工作具有十分重大的意义。通过对恶意代码运行机制的深入挖掘可以获得其内部详细信息,进而作为恶

学位

恶意代码隐蔽调试代码重构页故障

并发流程的定义、评价与仿真

随着经济的发展，企业内部以及企业之间日益膨胀的企业活动需要工作流技术的支持，因此对工作流系统的可用性、灵活性、效率性、安全性提出了更高的要求。企业不仅需要一个能够定

学位

工作流技术流程引擎染色Petri网并发流程

成人高校网络辅助教学系统设计与实现

进入二十一世纪，现代科技的发展正推动着各行各业的革新。教育事业作为立国之本，也在科学技术的推动下，产生了巨大的进步。现代社会的学习形式发生了很大的变化，我们正从单一的课

学位

网络辅助教学系统设计ASP技术成人高等教育

基于域的P2P流媒体分发系统的设计与实现

由于国内宽带网络的出口带宽瓶颈和服务器处理能力的限制,传统的基于C/S模式的流媒体分发系统,为了支撑不断扩张的客户群,需要购买越来越多的服务器硬件和带宽资源,从而导致

学位

点对点内容分发网络负载均衡内容路由自治域

基于SIP的服务质量(QoS)的研究

随着网络的高速发展,越来越多的实时业务在网络中传输,这些业务对数据传输的带宽、延时、抖动都有更高的要求。服务质量QoS成为研究的热点。QoS的研究目标是有效地为用户提供

学位

列存储内存数据库的压缩算法的应用研究

其他学术论文