论文部分内容阅读
随着企业和个人用户数据迅速增长,对数据中心的存储能力要求越来越高。统计显示在这些海量数据中,有相当的一部分是冗余数据,如何检测并删除这些冗余数据,提高数据中心存储性能已经变得越发迫切,也非常具有实用价值。本文一开始介绍了去冗的一些背景知识,分析了各大主要厂商去冗产品,介绍了相关的技术,在此基础上完成了以下工作:首先设计了一种分层次的去冗余架构,采用控制服务器和信息服务器分离的方法,使其分别用于事务处理和文件元数据存放。在信息服务器中,数据分层存放:文件指纹信息常驻内存,分块数据的元数据置于固态硬盘或者磁盘,真实文件数据存放于廉价的存储设备,从而合理利用内存和磁盘空间,提高效率。其次在预处理模块中,把数据进行分类处理,提出一种基于字节的最大递增序列分块算法,即BFMIS算法,有效解决不定长分块中的硬分块问题。针对去冗系统中关键的数据碰撞难题,对经典的SHA-1算法进行优化,改进SHA-1算法中的步函数,增强消息修改的扩展程度,并增加消息摘要的长度,提高SHA-1算法的抗碰撞性,降低去冗系统的误删率。提出多维Bloom Filter算法,对普通BloomFilter算法进行位数组扩展,降低其误判率,解决海量数据冗余检测问题,并增强Bloom Filter算法在分布式环境下的动态伸缩性,提高整个去冗系统的扩展性。论文阐述RFID网络中标签数据冗余问题以及CLIF,INPFM去冗机制,并把分层次去冗框架应用于RFID网络中,把RFID标签数据作为经过预处理后的元数据信息,进行分层组织和去冗。最后进行了实验测试。结果表明,优化后的SHA-1算法有效的提高了整体抗碰撞性;多维Bloom Filter算法有效降低了误判率,提升了动态伸缩性;多层次RFID去冗算法在时间效率和去冗率方面都优于已有的算法,但存在一定数量的误判;系统整体的吞吐量和去冗率都达到了预期的目标。