基于RCFile存储模型的分布式压缩存储优化研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:lgfgdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、物联网、社交媒体和社交网络等信息技术的快速发展,数据量正在以前所未有的速度增长。因此,如何高效地通过压缩技术减少数据存储量和提高存储效率显得尤为重要。RCFile作为一种记录列存储模型,目前存在两个问题影响RCFile存储模型中数据的可压缩性。第一,相同存储节点中的数据大多来自于不同的终端。这种情况导致同一个存储节点中的相邻数据差异较大,当这些数据转换为RCFile存储格式之后,行组中同一行数据之间的相似度相对较低。第二,目前RCFile采用单一的Gzip算法压缩行组各行。这种情况忽略了行组不同行之间的数据类型和数据分布特性。针对上述存在的第一个问题,本文提出一种适用于RCFile存储模型的预分配压缩方法。该方法通过一个预处理分配模型处理来自不同终端的数据。在预处理分配模型中,我们首先定义一组标准数据向量,将数据空间均匀地划分为若干个相似的数据空间,每一个划分后的数据空间对应一个数据存储节点。最后通过预处理分配算法将任意客户端数据向量分配到相应的存储节点。实验结果表明,随着数据空间划分的精细化,我们提出的预处理分配策略能够有效地提高实验数据在RCFile中的可压缩性。针对上述存在的第二个问题,本文提出了一种基于压缩代价的自适应压缩策略。在这个策略中,我们首先定义一个通用的压缩代价用于评估不同压缩算法的压缩性能,继而通过当前行数据样本和参照区样本之间的相似性为当前行推荐压缩算法。为了保证我们提出策略的有效性,我们通过比较当前行的数据压缩率与其前置序列的数据压缩率均值的差值和预先设定的压缩率差值的阈值来决定是否需要为下一组待压缩的数据重新选择压缩算法。最后,在基准数据集TPC-H的实验结果表明,通过基于代价的自适应压缩策略能够有效地提高RCFile存储模型的压缩性能。
其他文献
射频识别(RFID)作为一种高性价比的传感识别的使能技术,日渐在零售、制药、医疗保健和物流管理等领域得到各种大规模应用。然而,RFID数据具有时序性,动态性,数据量大,包含隐
城市地铁交通线路正在不断的发展建设,路网逐步形成并越来越复杂化,线路之间的耦合度也随之变高。由于线路广,资金难等特点同时聚集,地铁交通项目有很高的建设难度。目前我国各大
信息产业的飞速发展,使得信息量飞速膨胀,面对海量的数据信息,怎样从中找到需要的有效信息,成为人们研究的热点问题。而随着数据的不断增加,准确而有效的查询变得越来越困难
主机安全是用户信息安全的基础,目前主机安全威胁主要来自恶意程序。国内的安全软件厂商的检测方法还停留在二进制特征码查杀阶段,而近年来恶意程序大量快速繁衍对用户信息安
随着铁路系统自动化水平的提高,铁路运输方面对铁路信号及其辅助系统的功能和性能的要求也越来越高。铁路道岔就是铁路信号的一种关键设备,道岔的密贴情况将直接影响铁路运输
计算机网络技术与多媒体技术的飞速发展给数字产品的分发和共享带了极大便利。与此同时数字产品的非法篡改、修正和未授权分发给数字版权带来了巨大挑战。如何对数字产品进行
立体视觉是计算机视觉技术的一个重要分支,已广泛应用于三维测量、机器人视觉、虚拟现实等领域。立体匹配根据所选特征来计算,从而建立特征间的对应关系,是立体视觉中极为关
随着计算机技术的飞速发展,网络已经深入社会的各个方面,在人们生活中扮演着重要角色,所以网络安全问题显得尤为重要。分布式拒绝服务攻击(DDoS)是近年来网络中尤为猖獗的一
随着现代电子技术的飞速发展,待测信号的种类越来越丰富,交互界面需要显示的内容越来越复杂,对智能仪器显示质量的要求越来越高。目前大部分智能仪器采用光栅图形显示系统,仪器中
纹理分析是图像理解、分析与识别中的重要研究内容,在模式识别领域和计算机视觉领域中有着非常广泛的应用前景。纹理分析的主要研究内容为纹理描述、纹理分割、纹理分类、纹