一种分层次数据去冗技术研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:kaiserking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业和个人用户数据迅速增长,对数据中心的存储能力要求越来越高。统计显示在这些海量数据中,有相当的一部分是冗余数据,如何检测并删除这些冗余数据,提高数据中心存储性能已经变得越发迫切,也非常具有实用价值。本文一开始介绍了去冗的一些背景知识,分析了各大主要厂商去冗产品,介绍了相关的技术,在此基础上完成了以下工作:首先设计了一种分层次的去冗余架构,采用控制服务器和信息服务器分离的方法,使其分别用于事务处理和文件元数据存放。在信息服务器中,数据分层存放:文件指纹信息常驻内存,分块数据的元数据置于固态硬盘或者磁盘,真实文件数据存放于廉价的存储设备,从而合理利用内存和磁盘空间,提高效率。其次在预处理模块中,把数据进行分类处理,提出一种基于字节的最大递增序列分块算法,即BFMIS算法,有效解决不定长分块中的硬分块问题。针对去冗系统中关键的数据碰撞难题,对经典的SHA-1算法进行优化,改进SHA-1算法中的步函数,增强消息修改的扩展程度,并增加消息摘要的长度,提高SHA-1算法的抗碰撞性,降低去冗系统的误删率。提出多维Bloom Filter算法,对普通BloomFilter算法进行位数组扩展,降低其误判率,解决海量数据冗余检测问题,并增强Bloom Filter算法在分布式环境下的动态伸缩性,提高整个去冗系统的扩展性。论文阐述RFID网络中标签数据冗余问题以及CLIF,INPFM去冗机制,并把分层次去冗框架应用于RFID网络中,把RFID标签数据作为经过预处理后的元数据信息,进行分层组织和去冗。最后进行了实验测试。结果表明,优化后的SHA-1算法有效的提高了整体抗碰撞性;多维Bloom Filter算法有效降低了误判率,提升了动态伸缩性;多层次RFID去冗算法在时间效率和去冗率方面都优于已有的算法,但存在一定数量的误判;系统整体的吞吐量和去冗率都达到了预期的目标。
其他文献
随着J2EE跨平台技术的日趋成熟,因其可靠性、可扩展性等特点得到了市场的认可,J2EE技术成为了web开发的主流。电子政务系统作为互联网的一部分,其安全性和可靠性是首要考虑的
由于计算机数据采集工具及关系数据库技术的发展,目前各个行业都存储了大量的数据。传统的数据分析手段难以应付大量的数据,从而导致越来越严重的数据灾难。关系数据库提供的
本论文分析了与系统实现相关的GPS、GIS和GSM技术,详述了监控中心的设计与实现。 在论文中介绍了GPS的原理与应用。接下来介绍了GIS,并重点介绍了由MapInfo丌发的MapX控件
随着SOAP等技术的发展与普及以及电子商务的迅速崛起,一种新的基于Web的应用开发模式正在迅速发展,这就是Web服务技术。它的出现改变了以往分布式系统间的集成方式,它以XML作为
论文采用基于肤色和独立分量分析的方法从背景复杂的彩色静态图像中检测人脸。系统分为肤色区域粗定位、独立特征提取和基于FastICA算法的人脸检测三部分。首先,利用肤色特征
本文依托第22 届东南亚运动会体操项目成绩处理系统的建设,对将信息技术应用于大型运动会所涉及到的问题进行了研究。基于作者的分析和理解,本文阐述了软件复用理论和面向对
  信息技术的迅速发展和应用的日益广泛,使计算机软件的重要性与日俱增。软件规模越来越大,其复杂程度也不断增加。软件质量是软件产品的生命。然而,软件质量的发展状况一直不
近年来,在Internet/Intranet/Extranet 开发环境中,企业级应用系统大多采用三层或多层应用模式,这就是为我们所知的“三层/多层计算”。为了方便开发、部署、运行和管理基于
多智能体系统是分布式人工智能的一个前沿学科,它研究的核心问题是寻求建立一种有效的协作机制使功能独立的智能体通过协作完成复杂的控制任务或解决复杂的问题。 本文以R
随着Web和多媒体应用的迅速增长,网络业务流量呈几何趋势递增,这对传统的尽力而为的路由转发机制提出了严峻的挑战。当前的路由协议仅基于最短路径或最小跳数来为业务流选择