论文部分内容阅读
[摘 要]介绍了CDP技术的含义、特点、原理、控制机制和实现模式,并以本院图书馆为例,简要说明如何利用CDP技术在数字图书馆数据容灾中的应用。
[关键词]CDP技术;数据容灾;存储技术;数字图书馆
[中图分类号]G250 [文献标识码]B [文章编号]1008-0821(2010)04-0070-03
Analysis of the CDP Technology Applications in Digital LibraryFu Wenhui Li Bing
(Library,Jiujiang University,Jiujiang 332005,China)
[Abstract]The thesis described the meaning,features,principles,control mechanisms and implementation modes of the CDP technology,and used the library of Jiujiang university as an example,to briefly describe how to apply it in the data disaster recovery of the digital library.
[Keywords]CDP technology;data disaster recovery;storage technology;digital library
1 问题的提出随着数字图书馆建设快速的发展,数据保护变得越来越重要。一些图书馆每天在凌晨时进行一次增量备份,每周末凌晨进行全备份,这种方法存在的问题是,一旦出现了数据灾难,图书馆馆可以恢复到某天的数据,在最坏的情况下可能丢失整整一天的数据;有的图书馆采用每半天进行一次增量备份,但是在数据量备份很大的情况下,备份时间窗口很大,需要业务系统停机很长时间才能做到;有的图书馆为了确保数据的更高安全性,采用在线系统实行在线实时复制,尽可能多地采用磁盘管理技术维持数据的高可用性,但这样势必增加很大一部分投资。在一些关键应用中,几个小时的停机,或几个小时的数据丢失将造成巨大的损失。如何有效地保护数据,提供24小时不间断的服务成为图书馆界一个重要问题。传统的数据保护技术逐渐难以保证灵活的目标恢复点及较快的目标恢复时间。为了满足图书馆对数据进行连续保护,以便在灾难发生后能以最快的速度恢复到距故障点最近时刻的需求,CDP技术应运而生。
2 CDP技术概述
2.1 CDP技术了解CDP是Continuous Data Protection缩写,即持续数据保护。根据SNIA数据保护论坛(DMF)对CDP的定义是:“CDP是一套方法,它可以捕获或跟踪数据的变化,并将其在生产数据之外独立存放,以确保数据可以恢复到过去的任意时间点。持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,实现几乎无限多的恢复时间点。CDP技术是对传统数据保护技术的一个重大突破,传统的数据保护解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对工作系统的影响等问题。而CDP是在不影响主要数据运行的前提下,可以实现持续捕捉或跟踪目标数据所发生的任何改变,并且能够恢复到此前任意时间点的方法。CDP系统能够提供块级、文件级和应用级的备份,以及恢复目标的无限的任意可变的恢复点。从CDP持续数据保护的实现和目标来看,CDP技术已经将传统的数据备份的认知产生了质的飞跃。
2.2 CDP技术特点CDP技术与传统的灾难恢复技术相比,具有如下明显的特点(如表1):表1 CDP与传统数据保护技术在实施数据保护间隔比较
项 目保护间隔备份技术24小时快照技术1~3小时复制技术仅获得最后一个数据状态CDP技术无保护间隔
2.2.1 提高数据恢复时间周期由表1可以看出,备份技术实现的数据保护间隔一般为24小时,因此用户会面临数据丢失多达24小时的风险;采用快照技术,可以将数据的丢失风险降低到几个小时之内,而CDP能够实现的数据丢失量可以降低到几秒。实际上,在传统数据保护技术中采用的是对“单时间点(SPIT,Single Point-In-Time)”的数据拷贝进行管理的模式,而CDP可以实现对“任意时间点(APIT,Any Point-In-Time)”的数据访问。
2.2.2 数据备份安全可靠由表1还可以看出,虽然复制技术可以通过与工作数据的同步获得数据的最新状态,但其无法规避由人为的逻辑错误或病毒攻击所造成的数据丢失。当数据由于以上原因导致数据遭到破坏时,例如数据被误删除,复制技术会将遭到破坏的数据状态同步到后备数据存储系统,使后备数据也受到破坏。CDP系统可以使数据状态恢复到数据遭到破坏之前的任意一个时间点,也就可以消除前者具有的风险。
期浅析CDP技术在数字图书馆中的应用Apr.,2010Vol.30 No.43 CDP控制机制CDP的关键技术是对数据变化的记录和保存,以便实现任意时间点的快速恢复。其工作原理有以下3种模式:
3.1 基准参考数据模式其实现有3个关键步骤(1)建立供恢复时参考用的数据拷贝;(2)供参考的数据拷贝基础上开始顺序向前记录数据差异事件日志;(3)恢复时,在供参考用的数据拷贝基础上,依据数据差异事件日志进行数据恢复。其原理简单,实现起来比较容易,但由于数据恢复时,需要从最原始的参考数据开始逐步进行数据恢复,因而恢复时间比较长。
3.2 复制参考数据模式其实现也有3个关键步骤(1)供恢复参考数据拷贝实时与工作数据同步;(2)同步的同时,在当前数据基础上记录数据的回退事件;(3)恢复时,在当前数据基础上,依据数据回退差异记录日志将数据回退到过去任意时间点。它和基准参考数据模式在实现原理上恰好相反。复制参考数据模式在数据恢复时,恢复的时间点越靠近当前,所需要的恢复时间越短。但在数据的保存过程中,需要数据和日志记录的同步进行,需要较多的系统资源。
3.3 合成参考数据模式其实现有4个关键步骤(1)建立初始参考数据拷贝;(2)在供恢复参考数据拷贝基础上开始向前记录数据差异事件日志;(3)定期将初始参考数据向后移动;(4)如必要可重新解析合成参考数据时间点之前记录。合成参考数据模式是前两种模式的折衷,较好地实现了前两种模式的妥协,因此可得到较好的资源占用和恢复时间效果。但需复杂软件管理和数据处理功能,实现起来比较复杂。
4 CDP技术实现模式根据保护对象的层次,CDP技术可分为基于应用、基于文件、基于数据块三类。
4.1 基于应用的CDP对需要保护的关键应用程序,可以在其中直接嵌入和运行CDP功能。这种实现CDP的方式首先能够和应用进行深度整合,确保应用数据在持续保护中的一致性。CDP功能可以由软件厂商将其直接嵌入在软件产品中,也可以是软件厂商提供API接口,由第三方软件开发商来开发完成。基于应用的CDP最大好处是与应用程序结合紧密,管理也比较灵活,易于用户部署和实施。目前基于应用程序的CDP解决方案大部分是针对成熟的应用开发的,如支持微软公司的Office、Exchange、IBM的DB2,以及Oracle数据库等。
4.2 基于文件CDP其功能作用在文件系统上。它可以捕捉文件系统数据或者元数据的变化事件(例如创建、修改、删除等),并及时将文件的变动进行记录,以便将来实现任意时间点的文件恢复,如IBM公司的VitalFile、Storactive公司的LiveBackup for Desktop/Laptops、TimeSpring公司的TimeData等产品。
4.3 基于数据块的CDP基于块的CDP功能直接运行在物理的存储设备或逻辑的卷管理器上,甚至也可以运行在数据传输层上。当数据块写入生产数据的存储设备时,CDP系统可以捕获数据的拷贝并将其存放在另外一个存储设备中。基于数据块的数据保护又有基于主机层、基于传输层和基于存储层三类实现方式。
5 CDP在图书馆网络中运用九江学院图书馆是4校合并整合成立的,现形成以主校区图书馆为主和2个分校区图书馆为辅的藏书体系,另外主校区建设中的逸夫楼图书馆也将投入使用。各图书馆局域网络之间通过专线进行对接,中低端服务器设备7台,存储设备2台,利用汇文集成管理系统进行统一图书集中业务管理。
5.1 设计要求根据图书馆网络系统的现有模式,对图书馆数据保护利用CDP技术进行初步方案设计,目的在于防止因系统崩溃及其它因素引起的系统宕机所带来的关键业务数据的丢失;数据备份要求系统不停机,能在数据库服务器进行双机自动切换的同时响应在线备份的要求,保护关键业务数据;另外,可对图书馆之间实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换,实现了以主校图书馆服务器双机热备份为主,其它校区图书馆(可选任意一个)备份为辅的灾难恢复的构建方案。
5.2 解决方案在图书馆中心机房设置2台IP Stor管理器,提供本地各子系统统一存储及其它服务,同时利用CDP复制技术实现图书馆之间运程异制服务。在另图书馆也建立一台IP Stor管理器,通过校园网以IP方式连接,通过利用IP Stor的容灾技术移到容灾中心,中心机房业务系统备而不用的容灾中心成为第二中心机房,两个机房数据互容。通过CDP技术与快照代理技术相结合,自动与系统数据库沟通,以确保快照时间点数据的完整性,将备份应用服务器的数据全部备份到IBM-FAStT700磁盘,以保存更长时间的历史数据供日后的查阅。利用CDP提供的恢复系统为前提可保证完整保护系统运行及数据,通过服务器端的磁盘保护工具DiskSafe,即时的监控服务器上所有系统和数据磁盘,记录所有磁盘的变化,根据管理员设定的策略,将变化的磁盘区块持续同步或定时复制到后端的数据保护器,24小时完整保护服务器的系统和数据。
5.3 效果评价通过CDP解决方案可以在服务器端快速转换为快照磁盘,并浏览所有快照,利用内置数据保护器所提供的IP及FC SAN连接,在1分钟内就检查快照磁盘里的文件内容,并直接加载数据库系统进行数据比对和还原验证,完全不需要耗费长时间的数据恢复,或占用服务器本身的磁盘空间,影响系统运行,同时快照磁盘也能应用于快速准备测试数据环境,提供关键应用服务,在最短的时间内恢复正常运行的能力。因此当中心图书馆由于不可抗力造成系统完全瘫痪时,为保证业务的连续性,管理员可设定由最近或特定的快照时间点恢复系统运行;当服务器重新开机,选择由服务器所配置的 iSCSI HBA或FC HBA连接受保护的复制磁盘远程启动操作系统,不需事先恢复,利用远程系统直接在分馆运行,应用服务器就能回到快照时的正常工作状态。保证图书馆业务管理不间断运行。
6 结 语数据保护已成为一种数字图书馆建设重中之重,而数据的保护也已经从简单备份发展到了采用镜像、快照、远程复制等先进技术;而CDP技术的出现则为图书馆提供了一种全新的思路,它突破了传统备份不可逾越的性能瓶颈,实现了连续性应用可用性与不间断业务的梦想,随着CDP技术的应用范围的扩大和深入,CDP数据技术将会成为在线数据的重要保护手段。
参考文献
[1]宋.连续数据保护系统服务器软件的设计与实现[D].清华大学,2008.5.
[2]陈金莲.分布式连续数据保护方案[D].中国地质大学,2008.12.
[3]美国飞康软件公司[EB].http:∥www.falconstor.com.cn,2009-08-15.
[4]李兵,罗建军.浅析合并高校图书馆远程容灾系统建设[J].江西图书馆学刊,2007.4:112-113.
[关键词]CDP技术;数据容灾;存储技术;数字图书馆
[中图分类号]G250 [文献标识码]B [文章编号]1008-0821(2010)04-0070-03
Analysis of the CDP Technology Applications in Digital LibraryFu Wenhui Li Bing
(Library,Jiujiang University,Jiujiang 332005,China)
[Abstract]The thesis described the meaning,features,principles,control mechanisms and implementation modes of the CDP technology,and used the library of Jiujiang university as an example,to briefly describe how to apply it in the data disaster recovery of the digital library.
[Keywords]CDP technology;data disaster recovery;storage technology;digital library
1 问题的提出随着数字图书馆建设快速的发展,数据保护变得越来越重要。一些图书馆每天在凌晨时进行一次增量备份,每周末凌晨进行全备份,这种方法存在的问题是,一旦出现了数据灾难,图书馆馆可以恢复到某天的数据,在最坏的情况下可能丢失整整一天的数据;有的图书馆采用每半天进行一次增量备份,但是在数据量备份很大的情况下,备份时间窗口很大,需要业务系统停机很长时间才能做到;有的图书馆为了确保数据的更高安全性,采用在线系统实行在线实时复制,尽可能多地采用磁盘管理技术维持数据的高可用性,但这样势必增加很大一部分投资。在一些关键应用中,几个小时的停机,或几个小时的数据丢失将造成巨大的损失。如何有效地保护数据,提供24小时不间断的服务成为图书馆界一个重要问题。传统的数据保护技术逐渐难以保证灵活的目标恢复点及较快的目标恢复时间。为了满足图书馆对数据进行连续保护,以便在灾难发生后能以最快的速度恢复到距故障点最近时刻的需求,CDP技术应运而生。
2 CDP技术概述
2.1 CDP技术了解CDP是Continuous Data Protection缩写,即持续数据保护。根据SNIA数据保护论坛(DMF)对CDP的定义是:“CDP是一套方法,它可以捕获或跟踪数据的变化,并将其在生产数据之外独立存放,以确保数据可以恢复到过去的任意时间点。持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,实现几乎无限多的恢复时间点。CDP技术是对传统数据保护技术的一个重大突破,传统的数据保护解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对工作系统的影响等问题。而CDP是在不影响主要数据运行的前提下,可以实现持续捕捉或跟踪目标数据所发生的任何改变,并且能够恢复到此前任意时间点的方法。CDP系统能够提供块级、文件级和应用级的备份,以及恢复目标的无限的任意可变的恢复点。从CDP持续数据保护的实现和目标来看,CDP技术已经将传统的数据备份的认知产生了质的飞跃。
2.2 CDP技术特点CDP技术与传统的灾难恢复技术相比,具有如下明显的特点(如表1):表1 CDP与传统数据保护技术在实施数据保护间隔比较
项 目保护间隔备份技术24小时快照技术1~3小时复制技术仅获得最后一个数据状态CDP技术无保护间隔
2.2.1 提高数据恢复时间周期由表1可以看出,备份技术实现的数据保护间隔一般为24小时,因此用户会面临数据丢失多达24小时的风险;采用快照技术,可以将数据的丢失风险降低到几个小时之内,而CDP能够实现的数据丢失量可以降低到几秒。实际上,在传统数据保护技术中采用的是对“单时间点(SPIT,Single Point-In-Time)”的数据拷贝进行管理的模式,而CDP可以实现对“任意时间点(APIT,Any Point-In-Time)”的数据访问。
2.2.2 数据备份安全可靠由表1还可以看出,虽然复制技术可以通过与工作数据的同步获得数据的最新状态,但其无法规避由人为的逻辑错误或病毒攻击所造成的数据丢失。当数据由于以上原因导致数据遭到破坏时,例如数据被误删除,复制技术会将遭到破坏的数据状态同步到后备数据存储系统,使后备数据也受到破坏。CDP系统可以使数据状态恢复到数据遭到破坏之前的任意一个时间点,也就可以消除前者具有的风险。
期浅析CDP技术在数字图书馆中的应用Apr.,2010Vol.30 No.43 CDP控制机制CDP的关键技术是对数据变化的记录和保存,以便实现任意时间点的快速恢复。其工作原理有以下3种模式:
3.1 基准参考数据模式其实现有3个关键步骤(1)建立供恢复时参考用的数据拷贝;(2)供参考的数据拷贝基础上开始顺序向前记录数据差异事件日志;(3)恢复时,在供参考用的数据拷贝基础上,依据数据差异事件日志进行数据恢复。其原理简单,实现起来比较容易,但由于数据恢复时,需要从最原始的参考数据开始逐步进行数据恢复,因而恢复时间比较长。
3.2 复制参考数据模式其实现也有3个关键步骤(1)供恢复参考数据拷贝实时与工作数据同步;(2)同步的同时,在当前数据基础上记录数据的回退事件;(3)恢复时,在当前数据基础上,依据数据回退差异记录日志将数据回退到过去任意时间点。它和基准参考数据模式在实现原理上恰好相反。复制参考数据模式在数据恢复时,恢复的时间点越靠近当前,所需要的恢复时间越短。但在数据的保存过程中,需要数据和日志记录的同步进行,需要较多的系统资源。
3.3 合成参考数据模式其实现有4个关键步骤(1)建立初始参考数据拷贝;(2)在供恢复参考数据拷贝基础上开始向前记录数据差异事件日志;(3)定期将初始参考数据向后移动;(4)如必要可重新解析合成参考数据时间点之前记录。合成参考数据模式是前两种模式的折衷,较好地实现了前两种模式的妥协,因此可得到较好的资源占用和恢复时间效果。但需复杂软件管理和数据处理功能,实现起来比较复杂。
4 CDP技术实现模式根据保护对象的层次,CDP技术可分为基于应用、基于文件、基于数据块三类。
4.1 基于应用的CDP对需要保护的关键应用程序,可以在其中直接嵌入和运行CDP功能。这种实现CDP的方式首先能够和应用进行深度整合,确保应用数据在持续保护中的一致性。CDP功能可以由软件厂商将其直接嵌入在软件产品中,也可以是软件厂商提供API接口,由第三方软件开发商来开发完成。基于应用的CDP最大好处是与应用程序结合紧密,管理也比较灵活,易于用户部署和实施。目前基于应用程序的CDP解决方案大部分是针对成熟的应用开发的,如支持微软公司的Office、Exchange、IBM的DB2,以及Oracle数据库等。
4.2 基于文件CDP其功能作用在文件系统上。它可以捕捉文件系统数据或者元数据的变化事件(例如创建、修改、删除等),并及时将文件的变动进行记录,以便将来实现任意时间点的文件恢复,如IBM公司的VitalFile、Storactive公司的LiveBackup for Desktop/Laptops、TimeSpring公司的TimeData等产品。
4.3 基于数据块的CDP基于块的CDP功能直接运行在物理的存储设备或逻辑的卷管理器上,甚至也可以运行在数据传输层上。当数据块写入生产数据的存储设备时,CDP系统可以捕获数据的拷贝并将其存放在另外一个存储设备中。基于数据块的数据保护又有基于主机层、基于传输层和基于存储层三类实现方式。
5 CDP在图书馆网络中运用九江学院图书馆是4校合并整合成立的,现形成以主校区图书馆为主和2个分校区图书馆为辅的藏书体系,另外主校区建设中的逸夫楼图书馆也将投入使用。各图书馆局域网络之间通过专线进行对接,中低端服务器设备7台,存储设备2台,利用汇文集成管理系统进行统一图书集中业务管理。
5.1 设计要求根据图书馆网络系统的现有模式,对图书馆数据保护利用CDP技术进行初步方案设计,目的在于防止因系统崩溃及其它因素引起的系统宕机所带来的关键业务数据的丢失;数据备份要求系统不停机,能在数据库服务器进行双机自动切换的同时响应在线备份的要求,保护关键业务数据;另外,可对图书馆之间实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换,实现了以主校图书馆服务器双机热备份为主,其它校区图书馆(可选任意一个)备份为辅的灾难恢复的构建方案。
5.2 解决方案在图书馆中心机房设置2台IP Stor管理器,提供本地各子系统统一存储及其它服务,同时利用CDP复制技术实现图书馆之间运程异制服务。在另图书馆也建立一台IP Stor管理器,通过校园网以IP方式连接,通过利用IP Stor的容灾技术移到容灾中心,中心机房业务系统备而不用的容灾中心成为第二中心机房,两个机房数据互容。通过CDP技术与快照代理技术相结合,自动与系统数据库沟通,以确保快照时间点数据的完整性,将备份应用服务器的数据全部备份到IBM-FAStT700磁盘,以保存更长时间的历史数据供日后的查阅。利用CDP提供的恢复系统为前提可保证完整保护系统运行及数据,通过服务器端的磁盘保护工具DiskSafe,即时的监控服务器上所有系统和数据磁盘,记录所有磁盘的变化,根据管理员设定的策略,将变化的磁盘区块持续同步或定时复制到后端的数据保护器,24小时完整保护服务器的系统和数据。
5.3 效果评价通过CDP解决方案可以在服务器端快速转换为快照磁盘,并浏览所有快照,利用内置数据保护器所提供的IP及FC SAN连接,在1分钟内就检查快照磁盘里的文件内容,并直接加载数据库系统进行数据比对和还原验证,完全不需要耗费长时间的数据恢复,或占用服务器本身的磁盘空间,影响系统运行,同时快照磁盘也能应用于快速准备测试数据环境,提供关键应用服务,在最短的时间内恢复正常运行的能力。因此当中心图书馆由于不可抗力造成系统完全瘫痪时,为保证业务的连续性,管理员可设定由最近或特定的快照时间点恢复系统运行;当服务器重新开机,选择由服务器所配置的 iSCSI HBA或FC HBA连接受保护的复制磁盘远程启动操作系统,不需事先恢复,利用远程系统直接在分馆运行,应用服务器就能回到快照时的正常工作状态。保证图书馆业务管理不间断运行。
6 结 语数据保护已成为一种数字图书馆建设重中之重,而数据的保护也已经从简单备份发展到了采用镜像、快照、远程复制等先进技术;而CDP技术的出现则为图书馆提供了一种全新的思路,它突破了传统备份不可逾越的性能瓶颈,实现了连续性应用可用性与不间断业务的梦想,随着CDP技术的应用范围的扩大和深入,CDP数据技术将会成为在线数据的重要保护手段。
参考文献
[1]宋.连续数据保护系统服务器软件的设计与实现[D].清华大学,2008.5.
[2]陈金莲.分布式连续数据保护方案[D].中国地质大学,2008.12.
[3]美国飞康软件公司[EB].http:∥www.falconstor.com.cn,2009-08-15.
[4]李兵,罗建军.浅析合并高校图书馆远程容灾系统建设[J].江西图书馆学刊,2007.4:112-113.