论文部分内容阅读
当今人类社会已经进入高速发展的信息化时代,各种数据信息呈爆炸性增长的趋势,计算机存储系统中所存储的数据信息已经越来越多,并且其中包含了大量的冗余数据,这些冗余数据还会随着时间的推移而日益增多,这不仅会浪费大量的存储空间,而且会降低存储系统的性能,导致数据管理成本增加等诸多问题。因此,研究数据缩减技术以减少存储系统中的冗余数据对优化和提高存储系统的性能有重要的理论意义和现实意义。重复数据删除技术是一种数据缩减技术,它可以消除存储系统中的大量冗余数据,提高存储空间利用率和减少数据管理成本,现在已经成为计算机存储领域的一个研究热点。目前重复数据删除技术所面临的主要技术挑战是如何通过提高重复数据的删除效率来改善存储系统的性能问题。重复数据删除效率主要体现在重复数据删除过程中的重复数据删除策略、重复数据的重删率和重复数据检测速度等方面,它对提高存储空间的利用率和优化存储系统性能有重要的影响作用。因此,本文以提高存储系统的重复数据删除效率为技术主线,重点对重复数据删除架构、全局重复数据删除策略、加快重复数据检测速度的内存索引技术和基于流水线的重复数据检测方法等关键技术问题进行了深入研究。论文作者的主要研究工作和创新点包括以下四个方面:(一)针对传统的重复数据删除架构可扩展性差的缺陷,提出了一种集群式的两级重复数据删除架构(Clustered Two-level Data De-duplication Architecture,CTDDA)。CTDDA主要由客户端、元数据服务器和多个存储节点组成,并且可根据需要随时添加新的节点,能够方便地实现系统容量扩展。CTDDA支持文件级和数据块级的两级重复数据删除,它首先通过元数据服务器进行文件级的重复数据删除,然后再将非重复文件均匀分布到存储集群的各节点上并行进行数据块级的重复数据删除。采用两级重复数据删除和各节点并行操作的方式可以提高存储系统的重复数据删除效率。(二)为了消除存储集群中各节点之间的冗余数据,提出了一种基于Bloom Filter的全局重复数据删除策略(Global Data De-duplication Strategy based on Bloom Filter,GDDSBF)。为了防止CTDDA架构中各节点在各自的节点范围内进行局部重复数据删除,GDDSBF利用Bloom Filter技术为集群中每一个节点建立一个指纹摘要向量,并将所有向量聚合在一起形成一个全局的指纹摘要阵列(Fingerprint Summary Array,FSA)。通过查询FSA,各节点就可以进行全局范围的重复数据删除,从而可以获得较高的重删率。此外,GDDSBF还适应于系统的可扩展性需求,当增加新的存储节点时,通过在指纹摘要阵列中增加新节点的指纹摘要向量,就可以将重复数据的检测范围扩展至包含新节点在内的所有节点。实验研究表明,与局部策略相比,GDDSBF策略能够删除更多的冗余数据,重删率较高,因此,它提高了存储系统的存储空间利用率。(三)为了提高存储系统中重复数据的检测速度,提出了一种基于哈希表的内存索引方法(Memory Index Method based on Hash Table,MIMHT)。在重复数据删除过程中,一般需要通过查询数据块索引表来检测存储系统中的重复数据;但是随着数据量的不断增加,驻留在内存中的数据块索引表也会不断增长,甚至会超出可用的内存空间,因而必须将其存放在磁盘上,这样在查询数据块索引表的时候必然会产生频繁的磁盘I/O操作。因此,MIMHT方法的思想是将磁盘索引表中的一部分“热点”数据缓存到内存中,并将属于同一容器的索引项通过环形链表链接起来,形成一种基于哈希表的内存索引结构。这样,索引项的预取和替换就以容器为单位,这可以提高内存索引查询的命中率,减少磁盘索引的访问次数。理论分析和实验结果表明,MIMHT方法比DDFS(DataDomain File System)和无向图遍历分组法具有更高的内存命中率和更快的重复数据检测速度,它提高了存储系统的I/O性能。(四)结合全局指纹摘要阵列和内存哈希索引结构,在对重复数据检测过程进行阶段化分析的基础上,提出了一种基于流水线的重复数据检测方法(Duplicate DataDetection Method based on Pipeline,DDDMP)。DDDMP的主要思想是在各存储节点并行进行重复数据检测的基础上,在每一个存储节点内部采用流水线技术进行重复数据检测的再次加速。此外,在相邻流水段之间采用双缓冲队列来实现线程的同步,以减少线程共享单缓冲队列方式的同步开销,并对会引起流水线停顿的内存索引查询阶段进行了优化。实验结果表明,DDDMP方法明显优于顺序执行方式,可以进一步加快重复数据的检测速度,同时也提高了重复数据删除效率和整个存储系统的性能。