面向归档存储的重复数据删除优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lilyzhanglove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化水平的提高,数据变得越来越重要。与此同时,企业数据中心的存储需求量呈爆炸式增长。目前的存储系统主要是从数据的读写性能和可靠性方面进行设计,忽略了数据之间的关联和冗余特性。这不仅造成了存储空间的浪费,也使得用户难以对数量庞大、结构复杂的数据进行有效的管理。针对此,近年来出现了重复数据删除技术(De-duplication)。在分析重复数据删除系统中元数据访问、查询特性和数据的布局及读写特性的基础上,给出了一种元数据与数据分离的重复数据删除系统架构方案:(1)采用由客户端、元数据服务器和存储节点构成的三方架构;(2)将元数据访问分离到客户端与元数据服务器间,将文件内容访问分离到客户端与存储节点间,从而该方案具有高可扩展性和高访问并发性。在去重功能上,(1)采用固定分块的数据划分方法,使用哈希算法MD5、SHA-1等作为数据分块的哈希指纹;(2)使用两层Bloom Filter对数据分块的哈希指纹进行快速判别和过滤,并使用B+树索引结构作为哈希指纹元数据的持久化存储方案。为了进一步优化I/O性能,(1)采用按照数据流分区域存储的数据布局策略,获得数据访问的空间局部性;(2)结合客户端元数据及数据缓存机制,提高文件访问的缓存命中率和文件读写的性能。最后,设计并实现了一个三方架构的重复数据删除系统原型,在系统原型之上进行了功能和性能测试。功能测试结果表明,上述重复数据删除方案在虚拟机镜像的测试集下能获得130%的数据压缩率;性能测试结果表明,缓存机制可以提高文件访问的性能;指纹过滤统计表明,采用的两层Bloom Filter具有较高的指纹过滤率,0.071%的实际误判率在0.1%的理论误判率所允许的范围内。
其他文献
在信息互联网高度发达的今天,解决信息过载问题已经成为互联网技术发展的方向之一。如何从网络海量信息中获取有价值的信息是研究信息过载问题的关键,而个性化推荐作为解决此问
为满足我国教育事业规模扩大、多校区教学、学分制教学改革等方面的发展需求;为确保课表编排工作能够在高效、稳定、安全的环境下顺利运行,以水院的相关特色作为出发点,使用遗
在通信领域无线控制器中存在资源管理者和资源申请者两种硬件设备,资源管理者只存在一个,管理信令、码字等资源,接受并处理资源申请者的资源请求。随着网络流量和用户数的增加,资
随着网络用户的不断增加,个人电脑配置的提高,网络电视的风靡以及人们生活节奏的加快和人们网上视频浏览的增加,P2P流媒体点播系统越来越被大家所喜爱。目前,国内外对P2P流媒体点
自然场景的三维仿真是计算机图形学中的一个重要研究领域,在三维游戏、影视特效、计算机动画、虚拟现实和增强现实等方面具有非常广泛的应用。树木作为自然场景中最常见的植物
边缘检测是计算机视觉和图像处理中重要任务之一,检测出来的边界不仅反映了图像的某些重要特征,也为后续的图像处理提供了一些先验知识。从图像特别是彩色图像中检测出边缘是一
“三股势力”中的民族分离主义势力影响了国家稳定和民族和谐。该势力所秉持的民族分离主义实质上由极端的民族认同转化而来。为了从根本上消除民族分离主义,构建更加和谐的民
基于角色的访问控制(RBAC)一个关键问题是角色的构建。目前,虽然角色构建方法已被大量研究,但是这些角色构建方法并没有考虑RBAC模型中的约束信息,也并没有对得出的角色进行精确度
随着互联网的快速发展,各种信息不断涌现且形式各异。面对海量信息,用户难以区分数据的结构与层次,对信息资源的高效组织成为一个亟待解决的问题。目前主流的文件系统关心的是数
无线传感器网络具有很高的鲁棒性、准确性、灵活性等特点,这使得它运用于结构设施监测中具有不可替代的优势。将无线传感器网络运用于结构设施(如海洋平台)的监测中,当灾异出现