列存储内存数据库的压缩算法的应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wgy_2003_9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着各个行业数据量的大幅度增长,如金融,电信行业等,使得存储费用和管理费用也随之增长。面对信息量不断膨胀的问题,数据库系统采用压缩数据的方法保存数据,同时为了提高压缩比和便于OLTA(在线事务分析)统计分析的需求,也采用了列存储数据的方法。   在列存储压缩数据库的使用中,面临着如何提取源数据的问题,经过压缩后的数据需要解压缩后才能提取数据,为了避免全体解压缩后再提取数据的弊端,需对压缩算法进行选型,要求压缩算法能够在压缩态直接提取源数据,而不必全体解压。但是这种在压缩态直接提取源数据的方法,有其自己的弊端,就是在压缩态直接提取数据的时候,需要从头遍历压缩态数据,这样会浪费大量的时间,尽管在C_STORE中提出了分块压缩的思想,但是在本质上没有减少磁盘的IO,本文以此为切入点,对于能够在压缩态提取数据的压缩算法加以共性的优化。首先优化了现有的分块压缩的思想。原有的分块压缩技术之所以没有成功的减少磁盘IO,是因为压缩后的数据块头部之间在磁盘上的间隔距离过小,在数据库块间定位的时候,无法避免磁盘的连续读取,为了解决此问题,本文给出了一个典型的解决办法,加大块的压缩粒度,从而增大了数据块的头部之间在磁盘上的间隔距离,在块间寻址的时候,可以跳跃大量不必要的磁盘块,从而减少了磁盘IO。其次,为了进一步提高压缩态数据的提取速度,本文给出了“千存零取”机制,目的是提高块内提取数据的速度。以1000个数据为基准,每整千个数据的块内偏移记录在块的头部字段内,当提取数据的时候,可以在头部立刻定位到附近的一个整千位的数据,然后再以此为始遍历数据,这样大量的减少了块内提取数据的速度。   经过测试验证,优化后的压缩方法,能够大幅度提高数据提取的时间,理论上能够节省(1-R/m)*100%的时间,其中4<=R
其他文献
近些年来,背景建模算法在计算机视觉领域得到了广泛的应用,如视频监控、目标跟踪、人体行为识别、车牌检测等。与此同时,背景建模算法的应用环境也发生了较大变化,从静止的室
随着科技发展,机器人产业的应用和需求与日俱增,人类生活各领域如工业、农业、教育、国防等逐渐出现机器人的影子。因此,机器人学是一个重要且极具广泛应用价值的研究课题。
XML以其扩展性、结构性、平台独立性和自描述性等诸多特性,越来越多的信息采用XML格式进行存储和交换,XML已经成为Web上信息表示和交换的标准。大量XML数据的出现给XML的存储和
生物命名实体识别是生物医学文本挖掘的关键步骤,只有正确地识别出生物命名实体,才能有效地完成基因(蛋白质)标准化和蛋白质-蛋白质相互关系抽取等更加复杂的工作。然而,由于生
随着个人媒体设备的快速普及和互联网技术的出现,现实生活中图像的数量急剧增长,因此如何快速有效地组织和管理这些图像成为一个研究热点。与此同时,各种新兴技术的迅速发展
恶意代码作为信息技术的衍生物,对网络安全领域的威胁日益严重。恶意代码分析工作具有十分重大的意义。通过对恶意代码运行机制的深入挖掘可以获得其内部详细信息,进而作为恶
随着经济的发展,企业内部以及企业之间日益膨胀的企业活动需要工作流技术的支持,因此对工作流系统的可用性、灵活性、效率性、安全性提出了更高的要求。企业不仅需要一个能够定
进入二十一世纪,现代科技的发展正推动着各行各业的革新。教育事业作为立国之本,也在科学技术的推动下,产生了巨大的进步。现代社会的学习形式发生了很大的变化,我们正从单一的课
由于国内宽带网络的出口带宽瓶颈和服务器处理能力的限制,传统的基于C/S模式的流媒体分发系统,为了支撑不断扩张的客户群,需要购买越来越多的服务器硬件和带宽资源,从而导致
随着网络的高速发展,越来越多的实时业务在网络中传输,这些业务对数据传输的带宽、延时、抖动都有更高的要求。服务质量QoS成为研究的热点。QoS的研究目标是有效地为用户提供
学位