论文部分内容阅读
随着社会信息化水平的提高,数据变得越来越重要。与此同时,企业数据中心的存储需求量呈爆炸式增长。目前的存储系统主要是从数据的读写性能和可靠性方面进行设计,忽略了数据之间的关联和冗余特性。这不仅造成了存储空间的浪费,也使得用户难以对数量庞大、结构复杂的数据进行有效的管理。针对此,近年来出现了重复数据删除技术(De-duplication)。在分析重复数据删除系统中元数据访问、查询特性和数据的布局及读写特性的基础上,给出了一种元数据与数据分离的重复数据删除系统架构方案:(1)采用由客户端、元数据服务器和存储节点构成的三方架构;(2)将元数据访问分离到客户端与元数据服务器间,将文件内容访问分离到客户端与存储节点间,从而该方案具有高可扩展性和高访问并发性。在去重功能上,(1)采用固定分块的数据划分方法,使用哈希算法MD5、SHA-1等作为数据分块的哈希指纹;(2)使用两层Bloom Filter对数据分块的哈希指纹进行快速判别和过滤,并使用B+树索引结构作为哈希指纹元数据的持久化存储方案。为了进一步优化I/O性能,(1)采用按照数据流分区域存储的数据布局策略,获得数据访问的空间局部性;(2)结合客户端元数据及数据缓存机制,提高文件访问的缓存命中率和文件读写的性能。最后,设计并实现了一个三方架构的重复数据删除系统原型,在系统原型之上进行了功能和性能测试。功能测试结果表明,上述重复数据删除方案在虚拟机镜像的测试集下能获得130%的数据压缩率;性能测试结果表明,缓存机制可以提高文件访问的性能;指纹过滤统计表明,采用的两层Bloom Filter具有较高的指纹过滤率,0.071%的实际误判率在0.1%的理论误判率所允许的范围内。