论文部分内容阅读
随着信息技术和各种新兴网络应用的飞速发展,电子数据量增长迅猛,这些海量数据的存储和备份使得存储需求呈指数增长,数据中心的存储规模在迅速向PB级别甚至EB级别发展。研究表明,各种应用系统中存储的电子数据平均存在大约60%的重复数据,并且随着时间的推移不断增长。例如办公自动化系统、归档存储系统、群发邮件及附件、Web页面和软件版本发布中都存在大量的重复数据,周期性的备份更是加速了重复数据的增长。这些重复数据的多次存储和传送消耗了大量宝贵的存储和带宽资源,极大地增加了数据管理成本。因此,如何利用重复数据消除技术优化资源的利用率,降低数据管理的开销,已经成为了备份存储领域的一个热点研究课题。对基于在线重复数据消除的海量数据备份系统而言,在提高数据压缩性能的同时,还应该保证系统具有良好的安全性和吞吐量性能。因此,本论文的研究工作针对现有方法存在的不足,着眼于提高相同数据检测方法的压缩性能、提高线性Delta链的数据恢复性能、提高重复数据消除系统的数据安全性、提高重复数据消除系统的吞吐量几个方面。本论文的研究工作取得了以下创新性成果:(1)提出了一种基于预分块和滑动窗口的相同数据检测方法:该方法对数据变动区域和非变动区域采用不同的分块策略,较好地解决了现有方法不能解决的提高压缩性能和降低分块元数据开销之间的矛盾,从而突破了进一步提高检测方法压缩性能所面临的瓶颈。在分块大小预期值较大的情况下,该方法仍能获得较高的压缩比并且时间开销明显低于现有的有状态检测方法。(2)提出了一种Delta文件版本传递算法:通过使用该算法,可以在不计算中间版本文件的情况下恢复出所需的版本文件,较好地解决了线性Delta链数据恢复性能差的问题,并保持了线性Delta链压缩性能最优的特点。基于该算法的Delta备份系统的压缩性能相对于基于跳跃式Delta链的系统显著提高,并且数据恢复时间明显低于传统数据恢复方法。(3)提出了一种面向重复数据消除系统的加密方法:该方法以分块为加密的基本单位,并且使用会聚性的方法生成分块对称密钥,消除了用户密钥选择不一致和加密算法雪崩效应给重复数据消除带来的影响,从而较好地解决了传统加密方法与重复数据消除技术不兼容的问题,使系统的数据机密性和压缩性能同时得到了保证。(4)提出了不依赖于备份负载局部性的吞吐量提升方法:设计了一种适用于混合备份负载的吞吐量提升方法,并在此基础上进一步设计了一种适用于分布式应用环境的吞吐量提升方法,这两种方法较好地解决了现有吞吐量提升方法依赖于备份负载局部性的问题,能够有效处理非传统备份负载。这两种方法的数据压缩性能接近最优,并且具有良好的吞吐量性能。