高效重复数据删除技术研究

被引量 : 0次 | 上传用户:keremslr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今人类社会已经进入高速发展的信息化时代,各种数据信息呈爆炸性增长的趋势,计算机存储系统中所存储的数据信息已经越来越多,并且其中包含了大量的冗余数据,这些冗余数据还会随着时间的推移而日益增多,这不仅会浪费大量的存储空间,而且会降低存储系统的性能,导致数据管理成本增加等诸多问题。因此,研究数据缩减技术以减少存储系统中的冗余数据对优化和提高存储系统的性能有重要的理论意义和现实意义。重复数据删除技术是一种数据缩减技术,它可以消除存储系统中的大量冗余数据,提高存储空间利用率和减少数据管理成本,现在已经成为计算机存储领域的一个研究热点。目前重复数据删除技术所面临的主要技术挑战是如何通过提高重复数据的删除效率来改善存储系统的性能问题。重复数据删除效率主要体现在重复数据删除过程中的重复数据删除策略、重复数据的重删率和重复数据检测速度等方面,它对提高存储空间的利用率和优化存储系统性能有重要的影响作用。因此,本文以提高存储系统的重复数据删除效率为技术主线,重点对重复数据删除架构、全局重复数据删除策略、加快重复数据检测速度的内存索引技术和基于流水线的重复数据检测方法等关键技术问题进行了深入研究。论文作者的主要研究工作和创新点包括以下四个方面:(一)针对传统的重复数据删除架构可扩展性差的缺陷,提出了一种集群式的两级重复数据删除架构(Clustered Two-level Data De-duplication Architecture,CTDDA)。CTDDA主要由客户端、元数据服务器和多个存储节点组成,并且可根据需要随时添加新的节点,能够方便地实现系统容量扩展。CTDDA支持文件级和数据块级的两级重复数据删除,它首先通过元数据服务器进行文件级的重复数据删除,然后再将非重复文件均匀分布到存储集群的各节点上并行进行数据块级的重复数据删除。采用两级重复数据删除和各节点并行操作的方式可以提高存储系统的重复数据删除效率。(二)为了消除存储集群中各节点之间的冗余数据,提出了一种基于Bloom Filter的全局重复数据删除策略(Global Data De-duplication Strategy based on Bloom Filter,GDDSBF)。为了防止CTDDA架构中各节点在各自的节点范围内进行局部重复数据删除,GDDSBF利用Bloom Filter技术为集群中每一个节点建立一个指纹摘要向量,并将所有向量聚合在一起形成一个全局的指纹摘要阵列(Fingerprint Summary Array,FSA)。通过查询FSA,各节点就可以进行全局范围的重复数据删除,从而可以获得较高的重删率。此外,GDDSBF还适应于系统的可扩展性需求,当增加新的存储节点时,通过在指纹摘要阵列中增加新节点的指纹摘要向量,就可以将重复数据的检测范围扩展至包含新节点在内的所有节点。实验研究表明,与局部策略相比,GDDSBF策略能够删除更多的冗余数据,重删率较高,因此,它提高了存储系统的存储空间利用率。(三)为了提高存储系统中重复数据的检测速度,提出了一种基于哈希表的内存索引方法(Memory Index Method based on Hash Table,MIMHT)。在重复数据删除过程中,一般需要通过查询数据块索引表来检测存储系统中的重复数据;但是随着数据量的不断增加,驻留在内存中的数据块索引表也会不断增长,甚至会超出可用的内存空间,因而必须将其存放在磁盘上,这样在查询数据块索引表的时候必然会产生频繁的磁盘I/O操作。因此,MIMHT方法的思想是将磁盘索引表中的一部分“热点”数据缓存到内存中,并将属于同一容器的索引项通过环形链表链接起来,形成一种基于哈希表的内存索引结构。这样,索引项的预取和替换就以容器为单位,这可以提高内存索引查询的命中率,减少磁盘索引的访问次数。理论分析和实验结果表明,MIMHT方法比DDFS(DataDomain File System)和无向图遍历分组法具有更高的内存命中率和更快的重复数据检测速度,它提高了存储系统的I/O性能。(四)结合全局指纹摘要阵列和内存哈希索引结构,在对重复数据检测过程进行阶段化分析的基础上,提出了一种基于流水线的重复数据检测方法(Duplicate DataDetection Method based on Pipeline,DDDMP)。DDDMP的主要思想是在各存储节点并行进行重复数据检测的基础上,在每一个存储节点内部采用流水线技术进行重复数据检测的再次加速。此外,在相邻流水段之间采用双缓冲队列来实现线程的同步,以减少线程共享单缓冲队列方式的同步开销,并对会引起流水线停顿的内存索引查询阶段进行了优化。实验结果表明,DDDMP方法明显优于顺序执行方式,可以进一步加快重复数据的检测速度,同时也提高了重复数据删除效率和整个存储系统的性能。
其他文献
微机械因其具有体积小、耗能低、性能稳定等传统机械无法比拟的优点,在微电子工业、航空航天、医疗器械、工业自动化等领域得到广泛的应用,已经成为21世纪重点发展的学科之一
监视居住制度是我国刑事司法领域中备受争议的一项强制措施。在2012年刑事诉讼法修改前,由于其适用条件与取保候审相同,执行又相对较繁琐,经常受到司法实践部门的冷落。2012年修
离婚经济帮助制度的构建必须考虑如何尽量削减离婚本身对当事人各方以及社会和谐带来的不利影响。本文具体考察分析我国现行该制度的不足,提出了完善我国离婚经济帮助制度的
本文以框架理论为分析方法,从宏观的主题、中观的信息来源与媒介立场、以及微观的视听符号三个层面,分析药家鑫案件如何在不同的电视法治新闻中被建构,提出新媒体时代,议题和
<正>为有效解决土地执法监管工作存在的问题,都安县国土资源局调研组深入都安县部分乡镇、村屯开展土地执法监管工作调研,现将调研情况报告如下:一、近年来都安县违法用地基
“伯克利学派” ,又称“文化生态学派” ,是一个由卡尔·苏尔创立的、具有广泛学术影响的美国人文地理学派 ,在欧美地理学界和文化人类学界曾产生过巨大影响。本文对伯克利学
近年,体积压裂技术在国外实现了致密油等非常规油气资源的开发,改变了世界能源格局,作为一项革命性的技术备受人们关注。针对我国超低渗油藏渗透率低和储层致密的特点,决定采用常
土地复垦是新形势下落实生态文明建设、重塑美丽国土、统筹保障发展与保护耕地的重大举措。继2011年3月《土地复垦条例》正式施行后,2012年12月27日,国土资源部又发布了《土
与其他结构材料相比,镁合金具有比刚度、比强度高、易回收等一系列的优点,在汽车、航空、航天和国防军事工业等众多领域都具有极其重要的应用价值。镁以其资源丰富而受到更加
《死水微澜》中的"蔡大嫂"以其惊世骇俗的言行和所包含的文化价值成为中国现代文学史上一个经典形象。她是以"反叛"为标签的中国文化转型时期的产物。中国文学史上的叛逆女性