数据备份系统中数据去重技术研究

被引量 : 0次 | 上传用户:fdsadadsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的发展和数据量的暴增,数据备份系统中所要处理的备份和恢复的数据越来越多,数据去重技术已作为一种数据无损压缩技术广泛应用在数据备份系统中。不过,虽然数据去重技术能大幅度压缩数据量,提高存储空间和网络带宽利用率,但数据去重作为一门新兴的数据压缩技术,目前还面临着诸多问题和挑战。如在云备份服务中,现有的源端去重方法无法大幅度减少数据备份和恢复时间,满足人们对备份服务的需求;另外,现有的数据去重方法由于需要删除多个文件之间共享的重复数据块,会导致备份系统中存储许多数据碎片,影响数据备份和去重性能。在云备份系统中,受低带宽广域网络的限制,数据备份速度非常慢。对于大部分用户来说,数据备份速度过慢将直接影响正常的业务运营。针对此问题,本文提出基于文件语义的多层次源端去重方法(Semantic-Aware Multi-Tiered Source De-duplication Framework, SAM),减少数据备份时间。在SAM提出之前,现有云备份主要采用基于源端的全局数据块级去重和局部数据块级去重方法在客户端对重复数据进行删除,减少广域网络上传输的备份数据量。前者主要在全局范围内删除各用户之间产生的重复数据,所需要的数据去重时间较长;而后者虽然仅删除同一个用户所产生的重复数据,数据去重时间较短,但能获得重复数据删除率较低,需要较长的数据传输时间。经分析,这两种方法各有所长,但都无法大幅度减少数据备份时间,缓解数据备份过程中遇到的数据传输瓶颈。SAM结合这两种方法的优势,提出了将基于源端的全局文件级去重和局部数据块级去重进行结合的方法,同时在全局文件级和局部数据块级的去重过程中挖掘诸多文件语义信息,缩减重复数据的查找范围,加快重复数据的查找过程。经理论分析和试验数据分析,与现有的两种源端去重方法相比,SAM能较好地权衡所获得的重复数据删除率以及所引入的去重时间开销,可以大幅度减少数据备份时间。不过,现有的源端去重方法,包括SAM,都仅关注云备份中的数据备份时间,而对数据恢复时间的关注却很少。虽然这些源端去重方法都能好地满足大部分用户的需求,但对可靠性要求很高的企业用来说,数据恢复时间至关重要。当数据受损时,数据恢复时间的长短直接关系到经济利益损失的多少。针对此问题,本文提出基于因果关系的数据去重方法(Causality-based Deduplication Performance Booster, CABdedupe),不仅可以减少数据备份时间,也可以减少数据恢复时间。经观察分析,重复数据不仅存在于数据备份过程中,也存在于数据恢复过程中,且这些重复数据的存在与文件之间的因果关系息息相关。CABDedupe通过监控文件系统调用,捕捉文件之间的这些因果关系信息,不仅可以消除数据备份过程中的重复数据,也可以消除数据恢复过程中的重复数据,同时加速数据备份和恢复过程。另外,CABDedupe是一个辅助备份系统进行数据去重的中间件,CABDedupe的失效只会使部分重复数据无法被删除,降低CABDedupe对数据备份和恢复性能的优化效果,而不会影响备份系统中日常的数据备份和恢复功能。无论使用何种数据去重方法,由于需要对多个文件或数据流之间的重复数据块进行删除,数据去重都会使备份系统存储很多数据碎片。并且随着备份系统所存储的备份数据量的增多,这些数据碎片会越来越多,严重影响数据备份和数据去重性能。针对此问题,本文通过建立分析模型和实验统计数据,详细分析了数据碎片给数据冗余局部性以及数据去重性能所带来的负面影响,并提出通过减少数据碎片来提高数据去重性能的方法De-Frag。De-Frag的核心思想是通过保留小部分重复数据不被删除,减少所产生的数据碎片,维护备份数据流之间的数据冗余局部性;同时通过使用一个阈值来限制未删除的重复数据量,期望以牺牲较少的重复数据删除率来提高数据去重性能。实验数据表明,通过减少数据碎片量,De-Frag能在现有的数据去重方法的基础上提高数据去重吞吐率、去重数据的读性能、以及重复数据删除率等。
其他文献
进入21世纪,伴随着经济的发展我国高等教育也迈上了一个新的台阶。从扩招以来,我国高等学校数量增加,各个高校逐步设立二级学院,校-院二级管理已经成为当代大学管理的主要模
本文主要从戴维森的意义理论视角来分析戴维森的语言观和实在论的基本立场,考察其意义解释的条件与模式,讨论戴维森意义理论的后分析哲学走向和内在的理论困境。并从语用学维
<正>《机械能守恒定律》是《机械能守恒定律》整章的重点内容,也是教学的重点。能量守恒定律是十九世纪自然科学三大发现之一,对辩证唯物主义思想的建立起到重要作用,是学生
菌根是陆地生态系统普遍存在的、由土壤中的菌根真菌侵染宿主植物根系形成的联合共生体。菌根的建立是以共生体双方的营养交换为基础的:菌根真菌从土壤中吸收氮、磷等营养物质
为适应日益复杂多变的经营环境,公司在不断调整生产经营活动之外,往往必须对组织结构、资产结构、股本规模实施重大调整。这种重大调整包括扩张型的并购、发行新股,以及收缩
现如今水彩插画和漫画绘本对于我们已经不陌生,现今插画已经不仅仅是局限到图书的插图而他通过自己的另一种艺术形式来表达出本身的艺术价值,将水彩这种材料运用到插画中,使插画
目的本文主要探讨医院经济活动相关的内部控制评价指标体系的构建方法,目的是建立一套应用于医院内部审计阶段的内部控制评价的科学的、可行的综合评价指标体系。材料与方法
说题是近几年素质教育改革与实践中涌现出的一种新型双边教学模式,是教师从事教学研究,学生探索科学的学习方法,促进师生双边互动的重要方式之一。习题课是高中地理教学的重
一、目的本研究旨在通过分析新农合住院费用的分布特点、住院病人构成、疾病种类构成等,全而分析新农合的住院费用,找出影响住院费用的相关因素;通过多种统计方法的比较,探索
目的①依据采集到的相关信息分析并寻找重症肺炎患者的中医证候分布特点;②确定重症肺炎常见证型与年龄、性别、既往史、痰培养、白细胞、C反应蛋白、乳酸、B型脑钠肽、降钙素