论文部分内容阅读
随着信息化程度不断提高,数据对企业的重要性愈发凸显,将数据备份到网络能有效保护数据。由于企业数据量的快速增长,海量数据的备份给存储系统和网络带宽带来了很大压力,也造成存储系统中出现大量冗余。如何在保护数据的同时,消除数据冗余、节省存储空间和网络带宽成为亟待解决的问题。重复数据检测技术的出现成为解决这一问题的关键点。现有的各种重复数据检测算法,由于检测粒度不同,重复数据检测率和检测效率存在很大的差异。其中以数据块为粒度的重复数据检测,能较好的平衡重复检测率和检测效率,但在重复检测率上仍存在改进空间。论文在现有研究基础上,针对滑动块匹配算法的不足提出了改进方法,并进一步研究了结合重复数据检测进行网络差异备份。论文主要工作概括如下:①阐述了三种典型的数据块级重复数据检测算法的原理,包括固定长度分块匹配算法、可变长分块匹配算法和滑动块匹配算法;分析了这三种重复数据检测算法的优缺点。②针对传统滑动块匹配算法的匹配失败数据块,提出了带回溯子块的滑动块匹配算法。通过测试对比,该算法与传统的滑动块匹配和CDC匹配算法相比,重复检测率提高了约6.5%和16.5%。并结合实验分析了数据块划分对重复检测率和额外空间开销的影响。③针对网络备份的通信需求,设计了NBR(Network Backup Restore Protocol)网络备份通信协议,NBR协议建立在传输层之上,支持报文加密、文件压缩传输,可满足网络备份的通信和文件传输需求。④基于以上研究工作,本文设计了基于重复数据检测的网络差异备份系统。主要工作包括:设计与实现了基于重复数据检测的备份客户端;针对多用户并发备份需求,设计与实现了备份服务器的主要功能模块:中心控制模块和备份恢复响应模块;基于NBR协议实现了服务器和客户端共用的网络通信模块。系统测试结果表明,本文设计的系统与滑动块匹配算法作差异备份相比,可有效减少网络带宽、节省存储空间;且支持多用户并发备份,具有很强的实用价值。