压缩数据上的无解压代数操作算法的研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:flame_earth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前已经进入大数据的时代,每天都在产生巨量的数据。对于大数据的处理,滤过分析是对数据的通常处理办法,同时为了得到结果需要进行相应的操作,其中相应的最基本操作即为代数操作。目前有两种相应的方式用来高效地处理大数据上的基础代数操作,并行是其中的一种方式;采用压缩的技术是另外一种广泛采用的方式。本文主要对大数据上的数据压缩技术进行讨论研究。本文提出了一种新的压缩算法,在该压缩算法上实现了无解压的代数操作算法,并提出压缩计算的概念。同时结合查询优化策略实现了一个基于该压缩算法的数据库原型系统。主要的研究成果及贡献如下:  (1)针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的CCA(Column Compression Algorithm)压缩方法。该方法首先通过对列数据的长度进行归类,然后采用抽样的方法获得重复度较高的前缀,最后使用字典编码进行压缩,提出了CI(Column Index)和CR(Column Reality)作为数据压缩结构来减小大数据存储的空间需求。理论分析证明和实验验证了CCA的效果。  (2)基于CCA压缩算法研究并实现了无解压的集合代数、关系代数的操作算法,这些算法包括了并、交、差、笛卡尔积、选择投影连接等操作。对算法进行相应的理论分析和使用本算法进行的实验从而验证了算法的有效性。  (3)根据海量数据的特点以及基于CCA压缩算法,研究了面向列存储数据库的数据库查询优化策略,并给出CCA相关的优化策略。  (4)通过对CCA压缩算法和相关代数操作算法的研究,根据相应的研究结果实现了一个原型数据库系统Ding-Database Management System(D-DBMS)。理论分析和在1TB数据上的实验结果表明该压缩算法能够显著提高大数据的存储效率和数据操作性能,同时与Bit Address Physical(BAP)和TupleID Center(TIDC)压缩方法相比,在压缩率和执行速度上分别提高了51%、14%(压缩率上的提高)、47%、42%(执行速度上的提升)。
其他文献
随着Web2.0时代的到来,互联网的迅速发展,人们对网络的依赖越来越多。尤其是“互联网+”的提出,各大企业均响应号召,实施转型,各行各业每天都能产生海量数据,且呈爆炸式增长
随着世界信息技术的迅猛发展,信息量也呈几何指数增长,如何从巨量、复杂的数据中获取有用的信息,使数据挖掘技术成为了近年来信息技术研究领域的热点问题。数据挖掘是一种包
由于自组织映射(Self-Organizing Feature Maps, SOM)算法和粒子群优化(Particle Swarming Optimizing, PSO)算法拥有着概念简明、实现方便、收敛速度快、参数设置少,自组织
归纳推理是人脑最重要的高级思维功能之一,是从特定的事件、事实向一股的事件或事实推论,将知识或经验慨括简约化的过程,其结沦超出前提规定的范围。逻辑学、认知心理学、人工智
学位
中国是肝脏疾病的重灾区,肝硬化的死亡率占癌症死亡率的第二位。B超是肝脏检查的重要手段,B超检查的缺点是诊断结果受医生的主观因素影响较大。基于肝脏B超图像的计算机辅助
随着计算机技术及医学技术的进步,当前医学相关的数据正在呈“爆炸”式增长。大量的医学数据以文本的形式被记载在各种医学文献中并存储于数据库,如中医药文献库和MEDLINE数
乐器识别是音频检索的一个重要领域,它既涉及声源的声学属性,也涉及到人耳对音频的感知心理,是深入研究音频检索的基础。乐器识别在科学研究和实际应用中有着重要意义。本文
Web服务(Web Services)实现了跨平台、操作系统和编程环境的互操作,成了当前流行的应用开发平台,进而导致国际互联网络上出现了大量功能相同或相似的Web服务,如何从可能的服
作为一种新型的群体智能算法,微粒群算法源于群居生物行为的启发,具有收敛速度快、搜索效率高的特点,已成功应用于多种优化问题的研究。群机器人是典型的群体智能系统,用于目
在现代社会中,图像检索系统的发展越来越快,系统中所包含的图像越来越多。当今的图像检索特征提取算法主要包括颜色直方图、基于图像的纹理和形状等特征进行提取。颜色和形状