企业采购指南:重复数据删除技术选型

来源 :网络与信息 | 被引量 : 0次 | 上传用户:smallfishyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  现在有两个不同内容的Word文档(其显示的文字不同),他们之间有没有重合的地方呢?或者说,这两个不同的文档之间有没有通用的内容呢?答案是肯定的。如不同的文档之间,可能具有相同的访问权限。假设,每个文档需要利用0.5K的容量来保存这些信息或者属性(如只读或者隐藏等等)。那么10000个文件,需要占用多少容量呢?上百万个文件呢?显然,这些通用的信息会造成比较大的浪费。为了节约存储的成本,此时重复删除技术就派上用场了。
  重复数据删除技术是一个减少或者消除冗余文件、字节或者数据块的一个过程。简单地说,就是确保只有独一无二的数据被保存到存储设备中,重复的内容都被压缩了。从而来降低存储成本(如硬盘或者维护的成本等等)。在存储设备中(如用于文件服务器的存储设备),往往数据会有比较高的通用性。用户之间、服务器之间、同一种类型的文件之间相当一部分内容都是通用的。重复数据删除技术按自然边界将数据拆分为非常细粒度的子块单元,会采用指针代替相同的子块单元。从而达到显著降低存储空间的目的。这个原理跟数据库中的关系表有点类似。不过重复数据删除技术的工作原理要比其复杂得多。还好这并不是存储管理员必须要掌握的内容。我们只需要知道,重复数据删除技术有哪几种类型、各自有什么特点、如何根据企业的实际情况来选择适用的存储技术等等。
  根据启动重复数据删除技术的时机来区分,可以将重复数据删除技术分为联机重复数据删除技术和后期处理重复数据删除技术。作为存储管理员。可以不精通重复删除技术背后的工作原理,但是对于这两种技术的特点必须了解。
  
  一、后期处理重复数据删除技术的优缺点分析
  
  假设现在往存储设备中存储数据,那么存储系统是什么时候判断是否有重复的子块呢?是存储之间判断,还是存储作业完成之后判断呢?这就是重复数据删除流程启动的时机。如果是在存储作业完成之后再进行判断的话,那么就是后期重复数据删除技术。
  这里笔者以一个备份的案例来谈这种技术的优缺点。现在有一个Oracle数据库,需要定期向存储设备中备份数据。当数据库服务器开始向备份设备传输备份数据流时,系统是将整个备份数据量作为一个整体来传递。然后启动单独的进程开始读取已写入磁盘的数据块。开始判断是否有重复的子块,并进行后续的相关动作。
  数据存储与重复数据删出流程是两个独立的进程。一个进程负责数据的存储,另外一个进程来检查是否有重复的数据块以及后续的处理。简单地说,就是一边往存储设备中存储数据、一边进行判断。如果读入的数据块和已存储的数据块重复了。则会使用指针来替代这个数据块并删除重复的数据块(或者说可以被后续的数据所覆盖)。如果没有重复的话,则不会对这个数据块进行任何操作(因为这个数据块实际上已经保存在硬盘上了)。
  这种处理方式主要的缺陷是对于I/O的要求比较高。其先将数据保存在存储设备上,然后再由一个独立的进程从硬盘中读取数据来判断是否有重复的现象。如果有的话,还需要将其删除。从这个流程中就可以看出,有多个I/O的过程。所以对硬盘的I/O提出了比较高的要求。其优势是在存储数据的时候,不需要先在内存中进行缓存、再判断。为此可以节省内存的开销,提高数据存储的效率。
  
  二、联机重复数据删除技术的优缺点分析
  
  采用联机重复删除技术的方式时,其主要的特点就是数据存储、重复数据删除进程有一个前后的过程,而不是并列。笔者也以数据库备份为例来说明这种方式的特点。当备份数据流到达存储设备时,数据并不会直接保存在硬盘中,而是先驻留在内存中。然后重复数据删除技术进程会对这个数据进行重复性的判断。如果与硬盘中已有的内容重复,则不会将这个数据保存在硬盘中,而是利用指针来代替。相反,如果硬盘中没有已知的重复数据则将数据保存在硬盘中。
  使用联机重复数据删除技术主要的优势是可以降低硬盘的I/O开销。在后期处理重复数据删除技术这种方式中,需要先对所有备份数据进行写操作。然后重复数据删除进程需要将写入的数据再次读取出来。以判断是否有重复的子块。如果有重复子块的话,就需要进行删除的操作。光从这个数据流来看,就用了三次的I/O操作。这还不包括更新哈希表的I/O操作。所以采用后期处理重复数据的删除技术,其I/O的开销是非常庞大的。
  而采用联机重复数据删除技术,就不存在这个问题。因为其数据一开始就在内存中,不保存在硬盘上。只有确认存储设备中没有重复的子块时,才会将数据保存在硬盘上。为此其基本上只有一个I/O操作。也就是说,其大部分的工作都是在内存中完成的,就没有涉及到硬盘的I/O。
  不过采用联机重复删除技术,其对于内存的要求会比较高,需要利用额外的内存来保存这些备份数据。另外,从存储的时间上来看,由于其采用的是一前一后的方式,为此从整体的存储时间来看(假设不考虑I/O冲突),要比后期重复数据处理要长。在实际工作中。如果存储设备的I/O不理想,后期处理方式则会造成I/O比较严重的冲突,此时后期处理方式的作业时间反而要比联机处理方式要长。
  
  三、如何选择适用于自己企业的处理方式
  
  可见,两种处理方式各有各的特点。后期处理重复数据删除技术主要耗费的是硬盘的I/O资源,而联机重复数据删除技术其主要占用的是存储服务器的内存。即后期重复数据删除技术会将整个处理过程分解为两个相对独立的进程,从而缩短整个作业的时间。但是其是以增加至少三倍以上的I/O操作来达到这个目的的。采用联机重复数据删除技术,整个处理过程中所需要的I/O操作比较少。但是中间数据存储有一个等待的过程,为此会导致备份时间作业的延长。
  了解了这些差异之后,要做出一个合理的判断难度应该不是很大。如果存储服务器的硬盘性能比较好、但是内存比较小的话,显然比较适合采用后期处理重复数据删除技术。如果在后续的维护中。发现磁盘的I/O冲突比较严重,已经影响到了数据存储的效率,此时则比较适合采用联机重复删除技术。一般来说,对于备份作业并发数量比较多的企业,如当用户关机时会将每台客户端上的特定文件夹中有更新的文件在服务器上进行备份。当员工下班时,会触发大量的备份作业。此时如果采用联机重复删除技术的话,用户可能会有一个比较长的等待时间。不过如果采用后期处理删除技术的话,可以先将数据在服务器上进行备份。用户可以在比较短的时间内完成备份作业并实现关机的过程。然后存储服务器就可以慢慢地判断是否有重复的子块。并进行后续的处理。
  可见针对不同的情形,会有不同的选择。主要还是需要根据企业的实际情况来进行判断。作为存储管理员。需要牢牢地掌握这两种处理方式的差异。虽然最终都可以实现相同的结果,但是对于其性能会有很大的影响。
其他文献
“网游盗号、盗号木马”这一顽疾,正在大肆蚕食着网游玩家的心血,更为许多网民的网络安全带来了侵害。2009年12月14日,瑞星公司与完美时空达成战略合作协议,完美旗下产品游戏下载器将全面应用“云安全”技术,在启动下载器同时检查内存、启动项中的木马,对玩家电脑环境做安全检测,从而可以从根本上减少甚至杜绝网游盗号行为。瑞星与完美时空的这次合作,是国内重量级网游厂商应用“云安全”技术、反网游盗号的又一案例
美国IT网站CRN撰文列举了2010年十大IT安全趋势,随着社交网站、云计算和智能手机的发展,2010年的网络犯罪分子也将把重点放在这些领域。以下为文章概要:    1 社交网站面临更多安全问题    毫无疑问,2009年是社交网站迄今为止受到攻击最多的一年。但是与2010年相比,这些攻击可能根本不值一提。Koobface蠕虫等安全问题对社交网站用户形成了很大的困扰,但这些恶意软件仍然是首先感染用
进入崭新的2010,“无线风”可谓越刮越猛,随着低价上网本的普及,无线鼠标也成为了其最佳伴侣,但大众的购买能力和可承受的心理价位,在一定时期内是不会有太大变化的,对于普通消费者而言,用一百大元以内的花费,去购买一只无线鼠标,是觉得合理的,是相对容易接受的。  价位定在百元以下。所以本次无线鼠标导购的主题可以说是一节俭。因为我们都是普通的工薪阶层,呵呵!尽管现在无线鼠标市场花样百出,性能也在不断提升
双绞线我们日常称为网线,它根据屏蔽方式的不同可以分为两种,屏蔽双绞线(STP)和非屏蔽双绞线(UTP)两种,从经济和使用的范围来说,非屏蔽双绞线(UTP)是使用最多的。今天,要给大家介绍的是屏蔽双绞线(STP)。  屏蔽双绞线(STP)是指每条线都拥有各自屏蔽层,它对整个系统要求全部使用屏蔽器件,其中包括了电缆、插座、水晶头等,此外,还需要有良好的地线系统。  屏蔽双绞线(STP)外层是采用铝泊包
网络安全已成为全世界的主要社会问题之一,校园网作为网络的一部分也不例外。本文分析了校园网所面临的安全问题,并分析出对于这些问题应采取的措施,只有全方位地采取应对措施才
相信大家都记得,08年微软推出的Arc无线鼠标以“弯月”般的造型高调亮相,引起众人的关注。而在CES2010展会期间,微软又公布了Arc曲线人体工学无线键盘,Arc系列产品主打简约舒适的休闲风格,能够完美融合家居,超炫的外观使其与Arc无线鼠标成为了“最佳拍档”。  该款键盘尺寸约311×153mm,厚度大约在20mm,重约350克,采用的是弧线人体工学设计,右下角带有一键式的方向键,键位布局紧凑
如果说之前对于存储的认识还是在简单的硬盘、内存上,那么网络时代的快速发展,存储技术不断的更新,存储已经早就在硬盘为基础前提下得到飞速发展。而今,企业级存储技术不断涌入市场,使得习惯于传统存储知识的用户在术语认知上有所缺陷,如网络存储、虚拟存储、云存储、重复数据删除技术、归档技术等一大批术语究竟是什么,很是让人费解。尽管掌握这些术语似乎没有实际意义,并不能真正意味着对于行业技术的熟悉。但是这些基本的
很多朋友在使用扫描仪的时候经常用到OCR,但OCR是什么呢?它在我们日常的使用当中能够帮助我们解决什么问题?它究竟是如何工作的呢?下面,让小编为大家一一解答。OCR是一种光学字符识别技术,是
在电子商务全球化的发展趋势中.电子商务作为一种商业活动,信用同样是其存在和发展的基础。一方面,电子商务需要信用体系,而信用体系也很可能最先在电子商务领域取得广泛的应用并