论文部分内容阅读
目前已经进入大数据的时代,每天都在产生巨量的数据。对于大数据的处理,滤过分析是对数据的通常处理办法,同时为了得到结果需要进行相应的操作,其中相应的最基本操作即为代数操作。目前有两种相应的方式用来高效地处理大数据上的基础代数操作,并行是其中的一种方式;采用压缩的技术是另外一种广泛采用的方式。本文主要对大数据上的数据压缩技术进行讨论研究。本文提出了一种新的压缩算法,在该压缩算法上实现了无解压的代数操作算法,并提出压缩计算的概念。同时结合查询优化策略实现了一个基于该压缩算法的数据库原型系统。主要的研究成果及贡献如下: (1)针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的CCA(Column Compression Algorithm)压缩方法。该方法首先通过对列数据的长度进行归类,然后采用抽样的方法获得重复度较高的前缀,最后使用字典编码进行压缩,提出了CI(Column Index)和CR(Column Reality)作为数据压缩结构来减小大数据存储的空间需求。理论分析证明和实验验证了CCA的效果。 (2)基于CCA压缩算法研究并实现了无解压的集合代数、关系代数的操作算法,这些算法包括了并、交、差、笛卡尔积、选择投影连接等操作。对算法进行相应的理论分析和使用本算法进行的实验从而验证了算法的有效性。 (3)根据海量数据的特点以及基于CCA压缩算法,研究了面向列存储数据库的数据库查询优化策略,并给出CCA相关的优化策略。 (4)通过对CCA压缩算法和相关代数操作算法的研究,根据相应的研究结果实现了一个原型数据库系统Ding-Database Management System(D-DBMS)。理论分析和在1TB数据上的实验结果表明该压缩算法能够显著提高大数据的存储效率和数据操作性能,同时与Bit Address Physical(BAP)和TupleID Center(TIDC)压缩方法相比,在压缩率和执行速度上分别提高了51%、14%(压缩率上的提高)、47%、42%(执行速度上的提升)。