论文部分内容阅读
随着网络技术的发展和磁盘技术的成熟,数据存储量急剧增长,人类社会对数据信息依赖程度不断的加剧。人为错误、病毒攻击、介质失效、软件故障甚至站点失效等原因都会引起数据的丢失。目前细粒度多版本备份技术已经引起广泛的关注,与传统备份技术相比,可以减少版本之间丢失的数据量,为关键业务提供可靠数据存储环境。但是目前大量的研究集中在数据复制技术上,在细粒度多版本备份条件下,备份数据的可恢复性和恢复效率逐渐成为整个系统的核心问题。本文以块备份数据源为研究对象,块备份数据源具有与应用无关的特性,可显著降低数据保护成本。但是由于块备份数据是无结构的二进制数据源,随着数据复制频率的增加和数据保存版本数目的增长,数据管理越来越复杂,导致当前的多版本索引技术、基于内容索引技术以及数据存储系统中采用的数据管理方法都无法直接应用于多版本块备份数据管理中。基于上述背景,本文针对多版本块备份数据管理中数据的可恢复性和恢复效率等关键问题进行了分析、研究,具体内容如下:第一,为了实现一种相对通用的数据管理技术,分析了影响多版本块备份数据管理性能的主要因素,如数据复制技术,多版本备份数据的构成,数据备份恢复流程以及备份数据的分布特征等。在此基础上提出本文研究的目标,即在产生最少版本备份数据的条件下,保证任意版本的可恢复性。利用上述多版本备份数据分析、管理框架,明确了多版本备份数据管理中面临的问题和解决思路,为后续章节提供理论基础。第二,为了适应高频数据复制对备份数据索引结构的更新效率、检索效率和存储效率的要求,以CDP(Continuous Data Protection)数据复制为背景,根据多版本间的时序性分析,建立同时满足前滚和后滚的双向检索索引结构。与当前索引技术相比,使用同一种索引结构支持双向检索操作。双向索引结构适于应用在密集写操作的应用场景,结合检查点技术可以提供面向应用一致性的数据恢复方法。第三,备份数据中的快照技术可提供恢复状态的起点,保证数据恢复的正确性。本文采用基于版本融合的快照检索思想,设计并实现了以版本融合为基础的快照索引方法HCSIM(Hierarchical Clustering Snapshot Indexing Method),并进一步通过BVSM(Bitmap Vector Snapshot Merging)算法消除由于磁盘数据写偏移产生的索引项冗余现象。实验分析结果表明,HCSIM满足多版本块备份数据中的快照检索需求,比当前备份系统中的快照技术在索引存储效率和检索效率方面取得更好的平衡关系,有效降低索引复杂度。第四,针对长期、多版本备份数据中位图索引技术效率低下的问题,根据块备份数据的分布特征,提出以可变长数据块为索引单位的区间索引技术。并进一步实现了可变长数据块多版本管理方法,具体包括版本融合、快照检索、版本删除等算法。实验分析结果表明:区间索引技术比位图索引技术、传统的多版本索引技术显著提高索引数据的存储效率,更新效率以及版本检索效率。第五,结合上述研究,本文设计并实现了磁盘数据备份/恢复系统。系统包括三个基本组成部分:备份客户端,元数据服务端,备份数据存储端。本文的研究工作主要应用于存储端的备份数据管理中。通过在实际系统中对本文提出的管理方法进行具体测试得出,本文提出的多版本备份数据管理技术可以支持任意版本备份数据的快速恢复,适于应用到块备份数据的多版本管理中,实现了本文最初的研究目标。