论文部分内容阅读
随着信息技术的不断增长,海量数据信息的存储越来越依赖云存储系统。作为云存储系统的典型代表Hdfs,需要将每一个数据块的副本放置在多个节点上。副本放置策略的好坏,直接影响着数据存储的均衡和数据访问的速度。Hdfs默认的副本放置策略基本上是一个随机的选择策略,在系统运行一段时间后会产生数据分布不均衡的问题,从而导致数据的可靠性和读取性能的降低。另外,Hdfs中并没有对重复数据进行处理,造成很大的存储空间浪费。所以,对于Hdfs副本放置策略和重复数据的研究有十分重要的意义。
本文透彻分析了基于Hdfs的云存储系统架构,深入研究了基于Hdfs的默认副本放置策略。针对Hdfs默认副本放置策略存在的问题,提出了对于Hdfs副本放置策略的改进方案,在副本选择中优先考虑存储使用率低的节点,最终实现各节点数据存储的相对均衡。同时,本文研究了存储系统中的重复数据删除技术,设计实现了基于Hdfs的重复数据删除系统,在不影响Hdfs原有功能的前提下,为Hdfs集成了重复数据删除的功能,提高了Hdfs的存储空间利用率。
最后,本文对于Hdfs的副本选择过程进行了模拟。在模拟实验中,测试了使用默认副本放置策略和改进后的副本放置策略的运行效果,通过比较使用不同的副本放置策略集群中节点使用率的标准差,证实了改进后的副本放置策略在存储均衡方面有着更好的表现。同时也测试了HdfS的重复数据删除功能,实验中将一组文件写入到存储系统中,然后每次稍作修改,重复写入到系统中,最后记录集群中的数据使用的磁盘空间,并且与写入文件的逻辑大小进行比较。实验结果证实了在Hdfs中,使用重复数据删除技术可以有效的节省磁盘空间,降低磁盘开销。