分布式存储中数据压缩研究与实现

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:xinxi_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业对高性能、大容量存储需求的增长,基于SSD闪存的分布式存储系统开始应用起来,然而巨大的成本压力使得学术界和工业界开始研究怎么让基于S SD闪存的存储系统具有过去HDD硬盘存储系统一样低的成本,同时还保持着高性能,其中较为热点的研究有纠删码技术,重复数据删除技术以及高效的压缩算法技术。然而以上提到的各种压缩方案和压缩算法都有一定的局限性,如纠删码技术数据恢复过慢,重复数据删除技术十分依赖数据之间的重复性,现有压缩算法没有针对分布式存储的特性进行优化,针对以上问题,结合分布式存储的特点,本文提出并设计了在分布式存储的客户端中集成弹性数据压缩的方案EDC(Elastic Data Compression),其中主要包含了字典管理模块,异步通信模块,检测模块和压缩解压缩模块。几乎所有常见的分布式文件系统都支持POSIX客户端来读写操作整个存储系统,因此在客户端里面集成数据压缩不仅可以将压缩任务分摊到各个客户端中,同时具有很好的移植性;其次结合分布式存储的特点及文本压缩算法原理,通过给现有压缩算法zstd加入预置字典的方式来对小文件的存储进行优化,大幅提高了压缩速率及压缩比,同时对大文件的压缩和解压缩也有一定的优化;通过检测模块去更加科学地评估压缩时采用的压缩等级,分别从文件类型、文件可压缩性和客户端负载三个维度来计算当前的一个文件压缩指标,通过此指标判断文件是否由必要压缩,如果由必要,那么在指定的阈值区间中使用高中低三个等级的压缩,使得整个系统在保证高效存储的同时依然保持着高性能的IO能力。最终测试表明,在分布式存储的客户端集成EDC弹性数据压缩方案后,在数据冗余设置为单倍的情况下,小文件的存储在系统IO吞吐率上提高了约70%的同时节省了约160%的存储空间;中大型文件存储在系统IO吞吐率提高了约40%的同时节省了约120%的存储空间,在多倍冗余设置情况下,这种优化效果更加明显。
其他文献
综合地质地理和大气环境因素,“一带一路”沿线国家属于重大自然灾害频发区域,这不仅制约相关国家经济社会发展,也制约“一带一路”战略实施的效果,在某种程度上也关系我国企
美国私立教育的发展与教育法制体系的完善有直接的关系。本文对美国私立教育的立法、政府的资助和社会的捐赠、政府的管理和私立高校的自主权,以及如何学习借鉴等问题进行探索
给出了用示波法测电容的方法,并用示波器所示图形观察这个电容的电压和电流的相位差.
对室温贮藏条件下的大蒜的总糖、还原糖、脂类物质、可溶性蛋白以及游离氨基酸等主要化学成分含量变化进行研究。结果表明,大蒜总糖含量随时间延长而增加,之后迅速减少;还原糖含
车身开启件的表面质量与匹配精度直接影响汽车的外观感知质量,为提高其包边质量及稳定性,针对汽车门盖机器人滚边工艺常见的间隙段差超差、表面波浪起皱、特征线移位等质量问
文章通过实证研究指出:顾客对场所氛围、空间配置和社会因素之间的感知是相关的,共同影响顾客的功利体验、社会体验和情感体验。功利体验对顾客的正面情感和负面情感都会产生显
丁未黄冈起义尽管历时仅仅数日,然而却暴露出清政府在危机应对方面的种种不足,这集中体现在四个方面:一、预警机制的缺失。二、社会控制能力弱化。三、对舆论宣传控制不力。四、
企业是以市场需求为导向的营利组织,追逐利润是其本质属性,获利才能使企业生存和发展。企业财务本质上是企业与变化着的环境不断对话的过程。背景不同、时间不同,财务的观点
土壤聚合物是一种具有发展潜力的碱激发胶凝材料.尝试利用榆林地区煤系高龄岩和内蒙地区一种价格低廉的芒硝工业尾矿来制备偏高岭土基胶凝材料的可行性.研究结果表明:试验所用废
考察传说中的学校,我们可以从中发现游戏在教育机构的专门化。即学校的产生中具有非同一般的意义。具体体现在:一、教育的场所往往也是游戏的场所;二、教育的内容和手段常常与游
期刊