论文部分内容阅读
随着数据产生速度的不断提高,以及云计算的快速发展,各种云计算平台和应用产品对信息存储的要求越来越高,数据更新也越来越频繁,人们对数据同步的需求也在不断的增加。在云存储环境中,网络带宽仍然是稀缺资源,因此研究高效的数据同步算法非常有必要,以尽可能地减少网络数据传输量。好的同步算法就是指在同步的过程中需要尽可能的克服网络传输的瓶颈,既能较快的同步远端数据又尽可能少的传输数据量,减小网络带宽的消耗,实现更高效率的数据同步。远程文件同步技术可以使远程主机中的数据保持一致,此项技术目前已经广泛用于实现远程文件备份和更新。当文件更新时,可以将文件同步到备份中心,保证了数据的有效性和安全性。但大部分文件更新时数据变化量很小,如果重新备份,需要大量的网络传输量,因此出现了文件差异同步算法,将更新的文件差异同步到备份中心,能够有效的减少网络传输数据,节省网络流量。目前,基于差异的文件同步算法主要有Rsync和RDC,其中Rsync是目前应用最广泛的远程文件同步算法,Rsync算法在远程文件同步中扮演着一个非常重要的角色,它以开源、差异传输、网络负载低等特性被应用在众多领域。本文根据云存储平台中的文件同步需求,以降低同步产生的网络通信量且提高数据同步效率为目的,重点研究Rsync算法在远程文件同步机制中的应用,文章所做的主要工作有:1.文章着重讨论了本机制使用的经典的远程文件同步的Rsync算法,介绍了 Rsync算法的基本原理、分析了该算法的性能以及在文件同步中的应用;介绍了多线程技术以及该技术在数据同步机制中的应用。2.完成对数据同步机制的研究和实现,并对该机制进行了两个方面的改进。一方面,用并行化的方法将大的数据段分成多段,采用多线程的方式分别对每一段数据段求取指纹,实现通过多线程并行化求取指纹的效果,从而减少指纹的生成时间,提高系统的同步效率;另一方面,针对Rsync算法中增量表过大的问题进行了改进,对增量表中的差异数据先进行一次压缩再传输,进一步减少同步过程中的数据传输量,从而使得网络中传递更少的数据,实现更高效、快速的数据同步。3.对优化后的数据同步机制进行性能测试,对数据同步机制优化前后的性能进行对比,分析测试结果,根据实验结果对数据同步机制的性能进行分析和总结。实验结果表明本论文的优化方法对数据同步机制的效率有一定的提升作用。