论文部分内容阅读
摘要:本文介绍了商业银行对灾难恢复系统的需求和灾难发生时的有效处理方式,对商业银行的特点提出了灾难分类恢复的要点,并针对灾难备份和恢复技术进行具体描述。
关键词:银行 灾难恢复 灾难备份 灾难恢复指标
0 引言
随着全球信息化产业的迅猛发展,各行各业对信息化技术的运用和依赖与日俱增。信息化系统建设一方面促使业务实现前所未有的智能、高效运行;另一方面信息化也将企业业务的核心信息和数据置于一定甚至是难以估量的风险之下。[1]而以银行业为代表的国家各金融机构,其信息系统在业务处理、经营管理和内部控制时所面临的“灾难备份”和“业务连续性”要求则更是成为各方关注和模仿的焦点。
在商业银行系统的运行维护中,我们应主要关注四个方面:①如何在灾难发生前,通过对生产系统的逐级梳理和需求分析,建立起有效的灾难预警、灾难恢复系统,防患于未然。②如何在灾难发生时,及时有效地通过既有保障体系规避风险及对业务连续性的影响。③如何并在灾难造成损失时,尽可能缩短从事件发生到对外交易恢复的反应时间,以满足业务连续性要求。④在事件发生后,需要对风险的根本原因进行分析跟踪,对现有应急处置机制进行必要的评估及改进,以避免事件和问题的再次发生。
这就要求商业银行拥有一个健全、高效的灾备体系建设为数据中心的稳定运行提供保障。
1 灾备系统综述
灾备的定义包含灾难前备份和灾难后恢复两层含义,是容错计算、信息安全和系统管理三个综合领域的研究。
1.1 术语和定义 灾难备份系统:用于灾难恢复目的,由数据备份系统、数据处理系统和备用网络系统组成的信息系统。灾难恢复:为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。
1.2 灾难恢复重要指标 根据灾备系统按其安全性和可靠性等,可列出分析标准的两个重要指标:恢复点目标(RPO),指出现灾难时,对业务数据和应用系统而言,如需支持各系统正常运作需恢复到怎样的更新程度。RPO是一个时间点概念。恢复时间目标(RTO),指出现灾难时会丢失数据的时间。即从业务停止开始,到系统恢复至可以支持各部门运作,业务恢复运营之间的时段称为RTO。一般来说RTO越短,表示信息系统灾难恢复的速度越快、企业的损失越小,投入的成本则越高。
1.3 灾难恢复需求分析
1.3.1 风险评估(RA)与风险控制。风险评估的目的是在商业银行长期信息化建设的战略前提下,通过确定行业内风险存在的要素、影响范围、业务种类等所造成的隐性风险,及时发现系统整体所面临的风险威胁和脆弱性,从而有针对性地开展检查工作:检查商业银行内对抗各类风险的处置是否及时、手段是否合规、流程是否通畅、控制是否有效等。
1.3.2 业务影响分析(BIA)。BIA是通过业务性质、业务集中性、敏感度和关联性等指标开展业务功能分析来评估业务中断所造成的影响。应以量化的方式来评估业务中断所造成的直接或间接经济损失,以非量化的方式来评估业务中断可能造成的影响。
常用基本公式B=f×(E-e)c 表示,其中B代表受益、f代表灾难发生概率、E代表没有灾备系统下的损失、e代表灾备控制下的损失、c代表灾备投入成本。
因此,商业银行应根据业务重要性等级及风险发生概率、预估可能造成的损失及可接受损失程度来统筹平衡灾备建设的成本投入。确定风险防范措施、指定相应处置措施,并定期对风险进行重新评估,及时修正策略。
2 灾备系统在商业银行的实施
2.1 灾难备份标准 当前国际上对信息系统灾备方案最具有代表性的标准是SHARE78。SHARE78的七个灾备级别:第0级:无异地备份。数据仅备份在本地,没有制定灾难恢复计划,这是最简单的一种灾备方案。第1级:实现异地备份。将关键数据备份到本地磁带介质上,然后送往异地保存。第2级:热备份站点备份。在第1级灾备方案的基础上增加一个热备中心。灾难发生时可快速接管并恢复生产。第3级:在线数据恢复。通过网络将关键的数据进行备份且存放至异地,有独立备份中心,配备部分数据处理系统及网络系统。将恢复时间降低到一天或小时级,但网络成本随之增加。第4级:定时数据备份。增加了备份管理软件,自动通过通信网络将部分关键数据定时的备份到异地。但该级别备份的恢复时间和丢失数据量尚不能满足银行业灾备的需求。第5级:实时数据备份。增加了硬件的镜像技术和软件的数据复制技术。即实现在应用站点与备份站点的数据多备份更新。双重在线存储的特点保证了很小的数据丢失情况,将恢复时间降低至分钟级或秒级。相应的存储成本等也大大增加。第6级:零数据丢失。最高级也是最昂贵的灾备方案。利用双重存储和完全的网络恢复能力,将关键数据同步镜像至异地中心,数据需要在本地、异地同时进行确认。由于数据同时写两个站点,因此实现零数据的丢失,但在实际应用中会对生产产生较大压力且投资巨大。就目前而言,第0级至第2级对于银行业已不再适用,各商业银行应根据自身业务的时效性和重要性进行分类,对不同的业务选用不同的灾备级别,有效兼顾风险控制和成本投入。
2.2 商业银行信息系统分级
2.2.1 分类说明。第一类型:表示业务中断一段时间后将导致不可接受的经济或者非经济损失,一旦中断需要立即恢复。该类型又可细分为三个子类。第二类型:表示业务中断一段时间后将导致重大的经济或者非经济损失,一旦中断需要尽快恢复。第三类型:表示业务中断一段时间内不会造成严重的影响。对该类业务的恢复可以延迟或在前两类业务功能恢复完成之后进行。
注: “△”表示可以考虑采用的架构和方式;“√”表示建议优先选用对应架构进行建设。
2.2.2 参考标准说明。表中设计分类的第一个参考标准是灾备建设中最重要的数据复制技术,它决定了系统可能丢失的数据量,即灾备能达到的RPO水平。因此,针对此类系统业务影响分析中的RPO要求,选取能满足其要求的数据复制技术和架构。 第二个参考标准决定了信息系统灾难恢复的速度,即灾备能达到的RTO水平,即备用数据处理系统:灾备中心系统主机服务器是和生产同等配置还是降级配置,冷备还是热备,或者不部署服务器只做数据级备份的综合考量。
3 灾难恢复主要技术研究
3.1 主要技术比较
3.1.1 数据备份和恢复。通过数据备份系统、磁带库系统和离线磁带管理系统实现数据备份和恢复的需求。
缺点是周期性较长、无法满足大数据量恢复和实时性要求。适用于较低RTO和RPO要求的业务系统,能够达到第3级灾备要求。
3.1.2 基于磁盘整列的远程数据复制。通常适用于在RTO和RPO要求很高的情况下,业务能忍受的数据丢失非常小。需要具备较大型灾备中心和具有较复杂的应用系统。其中,生产中心需配置一个或多个高档磁盘整列产品,灾备中心需配置规模相近或相同磁盘阵列。并通过建立起独占式高速通讯链路,通常是独立的光纤或DWDM设备等,从而实施将生产中心的数据复制到灾备中心的存储中去,从而保证数据的高度一致性。
3.1.3 基于数据卷的远程数据复制。适用于建立第5级灾备系统,在生产中心和灾备中心配置相同或相近规格服务器、相同操作系统和卷管理软件的情况下,通过卷管理软件收集所有生产的写入操作,通过IP网络将所有写入卷数据传输到灾备中心卷管理软件,并写入备份磁盘。
此技术也可通过卷复制方式实现。由于数据传输主要使用IP网络,因此在降低通讯线路投资、建设远程灾备系统方面具有很大优势。
通过对比以上三种备份技术可以看出:对实时性要求较高、数据量增长较大的业务,应采用后两种复制技术。
3.2 高性能数据复制技术——SRDF EMC的SRDF(Symmetrix RemoteDate Facility)是一种基于磁盘阵列的用于保障业务连续性和远程灾备的解决方案,提供与主机和操作系统、应用程序及数据库无关的远程数据复制,从而实现全天候数据可用性。简而言之,SRDF是通过对多台Symmetrix进行配置,在不同地点实现多点、实时的数据备份。[3]通过在不同地点对多份数据进行维护,SRDF在降低对正常业务的影响的同时实现了“灾难恢复、中断恢复、远程备份、数据迁移”等功能。
SRDF的优势:①本地或局部站点毁坏情况下的数据保护:保持数据持续可用、多个远程恢复站点、实现可控性管理需求。②提供近距离实时数据恢复。③支持多存储平台数据迁移、数据合并、数据分布。④支持不间断操作:应用可在不同卷之间重新启动。
3.3 使用SRDF技术建立灾备中心的建议 SRDF技术另一重大特点在于异步复制技术的提高,随着国内商业银行的发展和安全性考虑,异地灾备中心的选址往往超过1000公里,在此前提下同步数据复制技术的高带宽和低延时会大大增加运维成本。对此,异步数据复制技术则能很好地解决这一问题。通常建议商业银行在建立起“异地灾备中心”的同时,在生产中心附近几十公里内建造一个“同城灾备中心”,通过SRDF的同步数据复制技术实时备份,并采用异步数据备份方式在两地灾备中心之间进行数据传输。这样既满足数据实时性和可靠性,又降低了成本投入,对生产系统的影响也非常小。
商业银行可以根据自身规模及业务分类决定“同城灾备中心”的灾备等级,是仅数据级备份或是形成更高层面的应用级备份。
4 结束语
我国商业银行的灾备系统建设正在快速发展、投入也在逐年提高。但不可否认地是,我国商业银行的灾备的建立仅处于一种基础阶段,往往徒具形而不具真正的抗风险能力。而国内中小型商业银行尚处于发展阶段,“客户规模少、资金流量小”等情况导致了现阶段对于灾备建设所需要达到的要求较低,可投入成本也有限。虽然国外灾备技术较为成熟稳健,但是对应地建设费用也较高,不能完全适合于国内银行地普遍使用,甚至反向抑制了灾备系统的建设和发展。因此,在灾难备份与恢复上我国商业银行还有很长的路要走。[2]
参考文献:
[1]2008年2月中国人民银行颁发《银行业信息系统灾难恢复
管理规范》.
[2]杨义宪.信息系统灾备技术综论[J].北京邮电大学学报,2010,33(2):2-5.
[3]张桂红.SRDF技术在企业IDC灾备系统中的应用[J].电脑知识与技术,2009(32):1-2.
作者简介:吕晨捷,男,浙江余姚人,上海大学计算机工程与科学学院,软件工程,工程硕士。
关键词:银行 灾难恢复 灾难备份 灾难恢复指标
0 引言
随着全球信息化产业的迅猛发展,各行各业对信息化技术的运用和依赖与日俱增。信息化系统建设一方面促使业务实现前所未有的智能、高效运行;另一方面信息化也将企业业务的核心信息和数据置于一定甚至是难以估量的风险之下。[1]而以银行业为代表的国家各金融机构,其信息系统在业务处理、经营管理和内部控制时所面临的“灾难备份”和“业务连续性”要求则更是成为各方关注和模仿的焦点。
在商业银行系统的运行维护中,我们应主要关注四个方面:①如何在灾难发生前,通过对生产系统的逐级梳理和需求分析,建立起有效的灾难预警、灾难恢复系统,防患于未然。②如何在灾难发生时,及时有效地通过既有保障体系规避风险及对业务连续性的影响。③如何并在灾难造成损失时,尽可能缩短从事件发生到对外交易恢复的反应时间,以满足业务连续性要求。④在事件发生后,需要对风险的根本原因进行分析跟踪,对现有应急处置机制进行必要的评估及改进,以避免事件和问题的再次发生。
这就要求商业银行拥有一个健全、高效的灾备体系建设为数据中心的稳定运行提供保障。
1 灾备系统综述
灾备的定义包含灾难前备份和灾难后恢复两层含义,是容错计算、信息安全和系统管理三个综合领域的研究。
1.1 术语和定义 灾难备份系统:用于灾难恢复目的,由数据备份系统、数据处理系统和备用网络系统组成的信息系统。灾难恢复:为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。
1.2 灾难恢复重要指标 根据灾备系统按其安全性和可靠性等,可列出分析标准的两个重要指标:恢复点目标(RPO),指出现灾难时,对业务数据和应用系统而言,如需支持各系统正常运作需恢复到怎样的更新程度。RPO是一个时间点概念。恢复时间目标(RTO),指出现灾难时会丢失数据的时间。即从业务停止开始,到系统恢复至可以支持各部门运作,业务恢复运营之间的时段称为RTO。一般来说RTO越短,表示信息系统灾难恢复的速度越快、企业的损失越小,投入的成本则越高。
1.3 灾难恢复需求分析
1.3.1 风险评估(RA)与风险控制。风险评估的目的是在商业银行长期信息化建设的战略前提下,通过确定行业内风险存在的要素、影响范围、业务种类等所造成的隐性风险,及时发现系统整体所面临的风险威胁和脆弱性,从而有针对性地开展检查工作:检查商业银行内对抗各类风险的处置是否及时、手段是否合规、流程是否通畅、控制是否有效等。
1.3.2 业务影响分析(BIA)。BIA是通过业务性质、业务集中性、敏感度和关联性等指标开展业务功能分析来评估业务中断所造成的影响。应以量化的方式来评估业务中断所造成的直接或间接经济损失,以非量化的方式来评估业务中断可能造成的影响。
常用基本公式B=f×(E-e)c 表示,其中B代表受益、f代表灾难发生概率、E代表没有灾备系统下的损失、e代表灾备控制下的损失、c代表灾备投入成本。
因此,商业银行应根据业务重要性等级及风险发生概率、预估可能造成的损失及可接受损失程度来统筹平衡灾备建设的成本投入。确定风险防范措施、指定相应处置措施,并定期对风险进行重新评估,及时修正策略。
2 灾备系统在商业银行的实施
2.1 灾难备份标准 当前国际上对信息系统灾备方案最具有代表性的标准是SHARE78。SHARE78的七个灾备级别:第0级:无异地备份。数据仅备份在本地,没有制定灾难恢复计划,这是最简单的一种灾备方案。第1级:实现异地备份。将关键数据备份到本地磁带介质上,然后送往异地保存。第2级:热备份站点备份。在第1级灾备方案的基础上增加一个热备中心。灾难发生时可快速接管并恢复生产。第3级:在线数据恢复。通过网络将关键的数据进行备份且存放至异地,有独立备份中心,配备部分数据处理系统及网络系统。将恢复时间降低到一天或小时级,但网络成本随之增加。第4级:定时数据备份。增加了备份管理软件,自动通过通信网络将部分关键数据定时的备份到异地。但该级别备份的恢复时间和丢失数据量尚不能满足银行业灾备的需求。第5级:实时数据备份。增加了硬件的镜像技术和软件的数据复制技术。即实现在应用站点与备份站点的数据多备份更新。双重在线存储的特点保证了很小的数据丢失情况,将恢复时间降低至分钟级或秒级。相应的存储成本等也大大增加。第6级:零数据丢失。最高级也是最昂贵的灾备方案。利用双重存储和完全的网络恢复能力,将关键数据同步镜像至异地中心,数据需要在本地、异地同时进行确认。由于数据同时写两个站点,因此实现零数据的丢失,但在实际应用中会对生产产生较大压力且投资巨大。就目前而言,第0级至第2级对于银行业已不再适用,各商业银行应根据自身业务的时效性和重要性进行分类,对不同的业务选用不同的灾备级别,有效兼顾风险控制和成本投入。
2.2 商业银行信息系统分级
2.2.1 分类说明。第一类型:表示业务中断一段时间后将导致不可接受的经济或者非经济损失,一旦中断需要立即恢复。该类型又可细分为三个子类。第二类型:表示业务中断一段时间后将导致重大的经济或者非经济损失,一旦中断需要尽快恢复。第三类型:表示业务中断一段时间内不会造成严重的影响。对该类业务的恢复可以延迟或在前两类业务功能恢复完成之后进行。
注: “△”表示可以考虑采用的架构和方式;“√”表示建议优先选用对应架构进行建设。
2.2.2 参考标准说明。表中设计分类的第一个参考标准是灾备建设中最重要的数据复制技术,它决定了系统可能丢失的数据量,即灾备能达到的RPO水平。因此,针对此类系统业务影响分析中的RPO要求,选取能满足其要求的数据复制技术和架构。 第二个参考标准决定了信息系统灾难恢复的速度,即灾备能达到的RTO水平,即备用数据处理系统:灾备中心系统主机服务器是和生产同等配置还是降级配置,冷备还是热备,或者不部署服务器只做数据级备份的综合考量。
3 灾难恢复主要技术研究
3.1 主要技术比较
3.1.1 数据备份和恢复。通过数据备份系统、磁带库系统和离线磁带管理系统实现数据备份和恢复的需求。
缺点是周期性较长、无法满足大数据量恢复和实时性要求。适用于较低RTO和RPO要求的业务系统,能够达到第3级灾备要求。
3.1.2 基于磁盘整列的远程数据复制。通常适用于在RTO和RPO要求很高的情况下,业务能忍受的数据丢失非常小。需要具备较大型灾备中心和具有较复杂的应用系统。其中,生产中心需配置一个或多个高档磁盘整列产品,灾备中心需配置规模相近或相同磁盘阵列。并通过建立起独占式高速通讯链路,通常是独立的光纤或DWDM设备等,从而实施将生产中心的数据复制到灾备中心的存储中去,从而保证数据的高度一致性。
3.1.3 基于数据卷的远程数据复制。适用于建立第5级灾备系统,在生产中心和灾备中心配置相同或相近规格服务器、相同操作系统和卷管理软件的情况下,通过卷管理软件收集所有生产的写入操作,通过IP网络将所有写入卷数据传输到灾备中心卷管理软件,并写入备份磁盘。
此技术也可通过卷复制方式实现。由于数据传输主要使用IP网络,因此在降低通讯线路投资、建设远程灾备系统方面具有很大优势。
通过对比以上三种备份技术可以看出:对实时性要求较高、数据量增长较大的业务,应采用后两种复制技术。
3.2 高性能数据复制技术——SRDF EMC的SRDF(Symmetrix RemoteDate Facility)是一种基于磁盘阵列的用于保障业务连续性和远程灾备的解决方案,提供与主机和操作系统、应用程序及数据库无关的远程数据复制,从而实现全天候数据可用性。简而言之,SRDF是通过对多台Symmetrix进行配置,在不同地点实现多点、实时的数据备份。[3]通过在不同地点对多份数据进行维护,SRDF在降低对正常业务的影响的同时实现了“灾难恢复、中断恢复、远程备份、数据迁移”等功能。
SRDF的优势:①本地或局部站点毁坏情况下的数据保护:保持数据持续可用、多个远程恢复站点、实现可控性管理需求。②提供近距离实时数据恢复。③支持多存储平台数据迁移、数据合并、数据分布。④支持不间断操作:应用可在不同卷之间重新启动。
3.3 使用SRDF技术建立灾备中心的建议 SRDF技术另一重大特点在于异步复制技术的提高,随着国内商业银行的发展和安全性考虑,异地灾备中心的选址往往超过1000公里,在此前提下同步数据复制技术的高带宽和低延时会大大增加运维成本。对此,异步数据复制技术则能很好地解决这一问题。通常建议商业银行在建立起“异地灾备中心”的同时,在生产中心附近几十公里内建造一个“同城灾备中心”,通过SRDF的同步数据复制技术实时备份,并采用异步数据备份方式在两地灾备中心之间进行数据传输。这样既满足数据实时性和可靠性,又降低了成本投入,对生产系统的影响也非常小。
商业银行可以根据自身规模及业务分类决定“同城灾备中心”的灾备等级,是仅数据级备份或是形成更高层面的应用级备份。
4 结束语
我国商业银行的灾备系统建设正在快速发展、投入也在逐年提高。但不可否认地是,我国商业银行的灾备的建立仅处于一种基础阶段,往往徒具形而不具真正的抗风险能力。而国内中小型商业银行尚处于发展阶段,“客户规模少、资金流量小”等情况导致了现阶段对于灾备建设所需要达到的要求较低,可投入成本也有限。虽然国外灾备技术较为成熟稳健,但是对应地建设费用也较高,不能完全适合于国内银行地普遍使用,甚至反向抑制了灾备系统的建设和发展。因此,在灾难备份与恢复上我国商业银行还有很长的路要走。[2]
参考文献:
[1]2008年2月中国人民银行颁发《银行业信息系统灾难恢复
管理规范》.
[2]杨义宪.信息系统灾备技术综论[J].北京邮电大学学报,2010,33(2):2-5.
[3]张桂红.SRDF技术在企业IDC灾备系统中的应用[J].电脑知识与技术,2009(32):1-2.
作者简介:吕晨捷,男,浙江余姚人,上海大学计算机工程与科学学院,软件工程,工程硕士。