【摘 要】
:
随着信息技术的不断发展,使得产生数据的方式也不断变化,需要存储的数据量也不断地增加。不断积累的大数据带来了新的机遇,大数据中包含了许多传统数据无法体现的深层次的价值,对大数据进行分析和挖掘将带来巨大的商业价值。与此同时,大数据也带来了巨大的挑战,大数据的量远远超过传统的计算技术的处理能力。与此同时,海量数据催生了一种具有安全性高、收费廉价、处理速度快等优势的存储方式——云存储。研究发现,无论是云存
论文部分内容阅读
随着信息技术的不断发展,使得产生数据的方式也不断变化,需要存储的数据量也不断地增加。不断积累的大数据带来了新的机遇,大数据中包含了许多传统数据无法体现的深层次的价值,对大数据进行分析和挖掘将带来巨大的商业价值。与此同时,大数据也带来了巨大的挑战,大数据的量远远超过传统的计算技术的处理能力。与此同时,海量数据催生了一种具有安全性高、收费廉价、处理速度快等优势的存储方式——云存储。研究发现,无论是云存储系统,还是传统的数据存储系统,都存在有这大量的冗余数据,有的系统中数据重复率高达70%~90%,因此对存储系统进行重复数据删除是非常迫切的也是非常必要的。去重技术可以对存储系统中冗余数据进行删除,节省存储空间的使用量,节约网络带宽,同时减少数据中心的存储花费和日常能耗。但是传统的重复数据删除技术在云储存系统进行大数据重复数据删除时面临着巨大的挑战,一是云存储中存储的数据结构更为复杂,体量更大,数据类型更加多样,二是需要合理权衡重复数据删除吞吐量和重复消除率这两个冲突目标。本文针对上述问题,做了如下工作。1、将HDFS(Hadoop Distributed File System)作为底层存储支持结构,设计了一个云存储系统重复数据删除模型HDDep。并改进了指纹索引结构,使之更加适合云存储系统。2、使用了基于文件划分的划分方式,因为在进行去重时不同文件类型之间的冗余数据几乎可以忽略不计,以此来减少指纹的查询范围。3、提出一种相似度聚类的重复数据删除策略(Similarity clustering deduplication strategy,SCDS),旨在不明显增加系统开销的前提下,删除更多的重复数据。SCDS的主要思想是通过相似度聚类算法来缩小指纹的查询范围。在数据删除时,利用相似性聚类算法将相似的数据指纹集合划分在同一个聚类(cluster)中,最后去重时只需要检测一个cluster箱中的指纹,以此来加快重复指纹的检索。实验证明,SCDS重复数据删除率优于现有的相似性去重的重复数据删除算法。
其他文献
近年来马拉松赛事风靡全国,高校学生是参赛群体的重要组成部分,高校跑步社团相继形成。本文运用文献资料法、问卷调查法、访谈法等研究方法,对江苏省高校跑步群体进行调查,得
探视权执行的标的是行为,而且需要反复执行,这就增加了执行的难度。而要完善我国的探视权立法,应从探讨探视权的性质入手,深入剖析探视权执行中遇到的困难和解决办法,积极借鉴他国
传统村落作为在长期中国农耕文明发展中形成的,凝结着中华民族历史文化缩影与记忆,也是传承民族文化脉络、乡土基因以及精神印迹的重要载体。但是伴随着中国社会经济结构转变,新型城镇化、城乡融合发展与乡村振兴的进程,传统村落甚至更广泛意义上的乡村的凋敝衰败已成为普遍趋势。传统村落正以肉眼可见的速度迅速消亡,而消失的不仅仅是一栋民居、一座村落,更是我们儿时的记忆、浓浓的乡愁,所以对传统村落空间进行保护与更新早
为了评价白灵菇的分类地位,本文采用了内转录间隔区(ITS)序列分析和相关序列扩增多态性(SRAP)两种分子标记技术,系统分析包括我国白灵菇商业菌株和欧洲Pleurotusnebrodensis
站在新中国成立70周年新的历史起点上,不久前,国务院国有企业改革领导小组第三次会议作出重要部署——坚持国有企业市场化改革方向,推动国有企业改革向纵深发展。会议强调“
在固态盘(Solid State Drive,SSD)的内部采用数据重删技术,能够有效减少写入固态盘的数据和擦除次数,进而减少对闪存的磨损。闪存的异地更新特性使它具有支持事务操作的天然优势。通过在SSD中提供事务处理功能,能够有效降低文件系统管理事务产生的开销。在重删SSD中实现事务机制,能兼得两者的优势从而提供高性能的事务处理支持。由于重删引入了大量额外的元数据,从而使得事务管理更为复杂。由于数
推出一定数量的租赁住房,是安徽省合肥市推进住房租赁试点工作的重要内容和保障.在租赁试点工作中,合肥将在2020年筹集各类集中式租赁住房约16万套,形成多层次、多渠道的租赁
结合低磁场返波管振荡器和虚阴极振荡器的优点,设计了一个具有较高效率的虚阴极振荡器,通过添加半反射腔,使虚阴极在Fh阳极箔、波导和半反射腔组成的准谐振腔内形成.实现器件的高
基于MATLAB建立了高速无人艇智能推进系统仿真和优化分析平台,进行了智能推进系统的实时优化配置与仿真分析讨论。通过对高速无人船艇智能推进系统控制参数的组合优化,选取不
档案管理主要是对档案信息资源进行管理,并且提供相对应的档案使用服务,是一项比较繁杂的工作,也是一项非常重要的工作,因为医院工作的形式和特殊性,使得医院健康档案的管理