大数据下重复数据删除的关键技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:hillyblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着与数据相关的信息技术的高速发展,全球数据量呈现爆炸式增长,大数据给我们带来了很多方便,但也存在大量的重复数据存储,因此有效的处理重复数据达到节省存储空间的目的,在大数据环境下提出了新的挑战。目前提出的重复数据删除技术,能很大程度地节省系统的存储空间,但是系统的性能、可靠性和扩展性也因此受到影响。本文对提升重复数据删除系统的性能进行研究,提出一种基于指纹分类的索引方案,并在此基础上设计和实现了一种新的重复数据删除系统,主要工作和创新点如下:(1)为了减少磁盘访问次数,提高重复数据删除的性能,本文提出一种基于指纹分类的 B 树二级索引方案 SIAR(a Secondary Index Assisted Read scheme)。首先根据指纹的值域将其进行分类,对于每类指纹建立一颗B树,相比于包含所有指纹的B树,每一类指纹对应的B树高度更小,由此可以减少磁盘随机访问的次数,提升系统的读性能。此外,对SIAR方法中的性能提升和内存开销的平衡关系进行了理论分析,依据存储系统的数据量大小,设置相应的参数,达到优化系统的读性能的目的。分析和实验验证了 SIAR方法的有效性和高效性。(2)设计并实现了一种新的重复数据删除系统,系统由客户端和服务器端两部分构成,客户端采用文件类型分类的方式对不同文件进行分类处理,不同类型的文件根据其内容特点采用与之适应的文件分块算法,这样可以保证重复删除率的情况下减少计算开销。客户端首先发送数据块指纹到服务端检测,确保是非重复数据块再传输数据到服务端,减少重复数据块的网络传输开销。服务器端采用布鲁姆过滤器初步判断数据块是否存在,然后运用SIAR索引确认数据块是否重复,最后采用TFS(Taobao File System)系统对数据进行存储,利用TFS的平滑扩容和容错机制,保证了系统的可靠性和可扩展性。
其他文献
随着国家政策的陆续出台,我国政府投资项目投资决策科学化的重要程度不断加强,综合性咨询应用也不断提升,定位至并列于工程建设全过程咨询同一高度。这对于工程咨询企业将会是理念转变、技术积淀、能力匹配的新管理发展“黄金”时期。但是由于当前政府投资项目投资决策咨询需求模糊、成果形式化及碎片化倾向突显、综合性不强等问题,影响了其高质量的开展实施。围绕上述问题,本研究从政府投资项目投资决策综合性咨询业务需求识别
21世纪以来,随着我国城市化进程发展迅速,大城市数量猛增,并且人口逐渐涌入大城市,导致城市人口密度迅速饱和,城市交通拥堵,空间资源极度不足,严重制约着城市的可持续发展。因此地下空间的开发,有利于缓解城市空间资源不足的问题,是解决城市人口过密,地面交通拥堵等问题的有效途径。目前,城市现代化发展中,地下空间已作为每个城市重要的后备空间资源。但人类不合理的开发地下空间,会导致有限的空间资源浪费和地质灾害
荧光分子断层成像(Fluorescence Molecular Tomography,FMT)是一种分子水平的光学成像技术。FMT通过近红外光激发生物体内的荧光分子探针产生发射光,再利用采集到的生物外表面
环境恶化、耕地面积减少、人口问题、全球气候变暖等一系列因素影响着农业生产,威胁着粮食安全。粮食安全保障至关重要,准确的粮食产量预测,对于指导农业生产、保持粮食产量的持续增长和粮食安全有着十分重要的意义。但是目前比较流行的粮食产量影响因子分析和预测模型存在许多不足:一些模型仅仅注重粮食产量的相关性分析;一些模型仅仅注重粮食产量的预测,忽略了粮食产量和影响因素之间的关系;一些模型对粮食产量的影响因素进
在城市环境中,要实现智能车辆自动避撞横穿马路的行人,需要获取准确的行人运动信息。然而在遮挡情况下,车辆存在视野盲区,若仅靠车载传感器,无法检测到盲区内的行人,当车辆获
随着全球经济迅猛发展,企业集团跨区域经营越来越多,公司规模越来越大,很多企业集团患上了“大企业病”,管理弊端逐渐显现。传统的管理方式已经无法满足企业发展的需要,因此我国大型企业集团纷纷走上了财务共享之路。财务共享是企业管理的一种新模式,通过更完善的业务流程将集团内各分子机构重复的业务集中处理,以更低的成本和更强的管理来努力提升企业运行的效率,以更高效的方式配置企业资源。但是在财务共享实施的过程中也
近年来,随着可见光通信(VisibleLightCommunication,VLC)技术不断发展和成熟,基于发光二极管(LightEmittingDiode,LED)的VLC应用已涉及室内/外诸多场景。对于室内VLC场景,通
本文提出了污点逆向传播的方法来解决用户隐私泄漏的问题。面向隐私保护的污点逆向传播实际上是按照污点正向传播的思想来追踪数据。而通过逆向化这个过程,达到了污点标记简
随着机器人产业的不断发展和人们对高品质生活的不懈追求,人们在日常生活的方方面面将会越来越频繁的看到服务机器人的身影,而这也给未来服务机器人的实用化和智能化提出了挑战。本文主要研究了基于二维激光雷达的SLAM(Simultaneous Localization and Mapping)和机器人自主导航等技术,旨在设计一款具备地图构建、自主导航等基本功能的室内服务机器人,可应用在化学工厂、隔离宾馆、办
在光学系统中,非球面光学元件与传统球面光学元件相比拥有很多可以进行优化的自由度(如二次曲面常数和高阶项系数),它具有简化系统结构,提高成像质量,提高像差校正能力的优点,