论文部分内容阅读
随着互联网的飞速发展,数据信息对于企业或个人而言,是重要的无形资产。如何保护好数据的安全成为当今热门的研究问题。另外,随着当代大数据时代的开启,数据信息往往急剧增长,如何能高效、快速地把主机系统的数据实时地同步到备机系统中,实现业务系统数据的快速恢复与切换,保证数据的零丢失,预防难以预测的灾难或者设备故障导致数据的丢失或不可用。同时,由于数据量比较大,导致数据备份效率低下且会消耗很多网络带宽资源,因此也要考虑如何提高数据备份效率以及减少网络数据量的传输,提高数据备份的性能和降低网络带宽资源的消耗。本文从实际应用系统中的数据备份需求出发,以提高数据备份性能和降低网络带宽资源的消耗为目的,采用基于rsync算法的增量方式的数据备份技术方案。论文的主要工作内容包括:阐述分析国内外的数据备份技术方案以及研究现状,明确需求;研究数据备份技术的相关理论;分析rsync算法的实现过程,在某种情况下,rsync算法效率低下,针对rsync算法存在的缺陷,分析对比了固定分块与不定长分块这两种数据分块算法,决定将固定分块改成不定长分块的数据分块方式;且基于改进后的rsync算法设计实现一套增量方式的数据备份系统;并结合Inotify实时监控文件技术,实时地监控着指定数据备份目录下文件的更新变化,达到实时自动地备份数据,满足实时性。最后通过实验与应用实例测试并分析影响增量方式的数据备份系统效率的因素,对于采用不定长分块的方式,证明了这种方式能够有效地减少网络数据量的传输,节省网络带宽资源。并将该数据备份系统应用于ceph分布式文件存储系统和基于openstack云平台下虚拟机实例的恢复备份,取得良好的效果。针对基于openstack虚拟机实例的恢复时间实验结果,采用最小二乘法曲线拟合方法建立虚拟机实例恢复时间的预估模型,并验证预估模型的有效性和可靠性。