论文部分内容阅读
摘要:随着高校信息化建设的深入,高校信息安全问题日益突出,凸显了云灾备体系建设的需求。本文通过对高校云灾备体系建设的必要性、灾备体系建设的几大要素分析,对灾备体系建设所遵循的原则和目标等重要问题进行了研究,结合浙江财经学院实际情况,提出了一套完整的高校灾备体系解决方案。
关键词:高校;信息化;灾备体系
中图分类号:G642 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.03.028
1 高校进行灾备体系建设的必要性
随着信息技术的飞速发展和信息化应用的不断普及,高校教育信息化建设的紧迫性和重要性被提升到史无前例的高度。特别是近年来,教育部、浙江省教育厅相继成立专门组织机构负责教育信息化的推进工作,在“十二五”教育信息化规划及相关政策推动下,高校在网络基础设施、信息系统等方面都有了卓有成效的建设,进一步提升了信息化建设应用水平,为高校教学、科研、管理提供了高效的信息技术支撑平台,信息技术手段在高校的广泛使用,极大地影响了高校师生教、学、研及生活等多方面的改变。显然地,用户对信息化的依赖程度越来越高,信息化产生的数据量也爆发式的增长,随之而来的数据信息安全问题也日益突出。高校各类业务的核心是信息数据,而数据时刻都受到各种能预料到或预料不到风险的威胁,数据的安全性和抗风险的能力已经直接影响到高校各项日常业务的正常运行与开展,也成为师生用户对信息化服务满意度高低评判的基本指标。自然灾害,意外事故,人为错误,系统自身缺陷,还有恶意窃取和攻击,这些都在无时无刻的影响着我们的数据安全,信息数据有时候比物质更宝贵,它不可再生、无法替代,信息数据的损失有时会产生不可预计的严重后果,对师生个人的工作和生活,乃至对学校整体造成恶劣的影响。因此,我们必须重视信息安全问题,要加强灾备建设,特别是网络系统可靠性、业务连续性以及数据可用性急迫需要进一步加强,要求设计搭建一个安全、可靠、高效的灾备体系,以提高高校信息化运行的防灾能力。
2 高校灾备体系建设的技术要素
2.1 防范的风险范围
目前,很多高校在数据存储方面,一般都采用数据集中存储。数据集中的优势主要有:使得硬件设备一定程度或高度集中,提高了设备的使用率和互换性;数据和设备的管理得到了更有利的保障;能充分利用人力资源;可以低成本的、快速的对业务进行扩展;可以有效降低运营和总拥有成本。
但同时,高校数据的区域集中或大集中也带来了一些问题及相关风险,比如数据在高度集中后,需要管理模式和技术人员维护水平相应的改变和提高,以适应数据高度集中所带来的问题;另外,数据中心一旦受到灾难,那么将会造成大范围的影响。因此,对高校集中后的数据中心,总的来说,我们主要应考虑如下几方面的灾难风险,见表1。
对于可能的“计划外风险”,要设计连续可用的计算机系统,实现正常联机业务的连续运行。具体应该实现数据备份的并发进行;实现后台动作如数据仓库系统数据加载的并发进行;实现测试、开发系统的并发进行。
对于可能的“计划内风险”,我们要设计最快恢复的计算机系统,尽快实现正常联机业务的继续;对于电源和设施硬件故障,在主数据中心采取冗余设计,预防单点故障;对于软件故障,实行严格投产前测试;如升级中出现逻辑故障,视故障原因采取装入成熟版本、修正数据错误等方法尽快恢复系统的运行。
对于自然、人为等灾害造成整个数据中心无法运作时,就应生产切换到备份中心,尽快恢复系统的运行,并将数据的丢失率将为最低,直至为零。
2.2 灾备恢复的关键性衡量指标
在灾难恢复方面,主要有三个目标是我们努力的方向。第一是服务恢复时间,即用户单位能忍受多长时间没有服务;第二是网络多长时间能够恢复;第三就是业务层面的恢复。在整个恢复过程中,最关键的衡量指标有两个:一个是RTO,另一个是RPO。
(1)用户能容忍的最长停机时间(RTO,Recovery TimeObjective),是针对服务的丢失。指当计算机系统发生灾难故障造成工作停止时,致使业务中断或停顿所引起的损失程度,即从计算机系统当机导致业务停顿这个时间点开始,到计算机系统恢复,可以支持各部门运作、恢复提供服务这个时间点,这两点之间的时间段我们称之为RTO。
(2)用户能容忍的最大数据丢失量(RPO,RecoveryPoint Objective),是针对数据的丢失。指灾难发生前最后一次备份的时间,即系统本身及生产的数据可以恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是灾难发生前最后更新的实时数据。
高校信息化系统是一个范围大而复杂的系统,无论灾难恢复采用哪种衡量指标,最终目的是针对高校业务特点分析制定合理的、实用的、可实施的灾备体系,否则就失去了建立灾备体系的意义。我们建立灾备体系最根本的作用就是要确保灾难发生后信息化业务能够连续运行,数据完整保存,丢失越少越好。因此在设计灾备体系时用户单位要有一个底限。
2.3 容灾中心模式
目前,计算机系统数据中心的典型容灾模式常用的有以下两种:一是,选择两个数据中心的模式,即一个工作数据中心、一个灾难保护数据中心。采用这种模式需要先进行数据的集中,即整合,然后建设灾难保护系统。二是,保留多个区域数据中心,为每个区域中心建设灾难保护系统。这种模式投入较高,而且使数据中心变得更多,管理成本高昂,不适合高校的实际情况,不建议采用。两个数据中心的灾备方案是目前很多行业的灾备方案建设选用较多的方案之一。用户采用两个数据中心的灾难保护方案除了考虑成本的因素外,一个重要的原因是技术条件的限制。对于集中数据中心的灾难保护,多采用基于存储的数据复制技术来实现,在很多情况下也是唯一选择。采用基于存储数据复制技术的两个数据中心的灾难保护方案有两种选择:同步数据复制技术和异步数据复制技术。 同步数据复制技术能够保证零数据丢失,这是最理想的选择。但由于技术局限,同步数据复制技术必须在近距离范围内才能够实现。
而从对大规模灾难的保护看,距离越远越有利于灾难防范,采用远距离的灾难保护方案,则必须采用异步方式,在灾难发生时候必须承受一定的数据丢失。
以上两种技术各有利弊,同步方式对网络要求比较高,同步时不能出现网络中断的情况,而现在多数高校有多个校区,距离较远;另外,考虑到高校灾备级别对RPO/RPT的要求并不是非常高,因此,根据高校特点,主要采用异步复制方式。
2.4 技术的维护难度
一直以来,大多数高校对灾备体系没有足够的重视,一方面是对灾备的重要性认识不够,另一方面是由于容灾技术的复杂性和建设容灾系统需要高成本的投入,使得许多高校对构建容灾体系望而止步,在容灾系统建设及其管理的过程中,也会碰到许多问题,比如灾备维护比较繁复、进行灾备演习困难等。因此,我们无论选择何种关键容灾技术,都必须要考虑灾备系统管理的简易性与友好性以及技术实现的可靠性,能让校内网管人员可以方便、快捷的实现系统维护,这是在出现灾难时,能快速响应和处理的一个基础,这样才能使得我们构建的灾备体系多层次维护更为有效率、处理故障的能力更为强大。
3 高校灾备体系建设遵循原则
3.1 具有高可靠与高可用性:满足7X24关键业务的应用
对关键应用,系统的保护已经不再仅仅停留在数据保护上,而是要保护业务的7X24持续性。在高校,虽然不是所有业务像金融、电力、医疗等行业那样要求其业务系统保证7X24小时在线运行,但是一些关键业务如教务、OA、一卡通系统等,还是要保证业务持续性的。
在许多情况下,数据是安全的,但业务却不得不停顿下来,即造成所谓的“虚拟停机”。关键业务的业务持续性受到许多因素的挑战,大体上分为计划内停机和计划外两大类。计划内停机是由于数据备份、软件和系统升级、软件和应用测试等系统管理工作与业务应用程序竞争资源造成的。计划外停机是由于软件误操作、硬件故障和机房环境发生灾难造成的。如何确保7X24业务持续性,对用户都是极具挑战性的。
3.2 具有线性扩展能力和灵活的体系架构
高校信息化的深入开展,要求信息技术与教学、科研、管理的深度融合,会新建或更新升级信息系统和硬件设备系统,这就要求灾备体系的软件平台的可扩展性与硬件平台的可扩展性相互配合。并且在扩展时,保证系统性能的线性扩展能力,确保整个体系能够满足将来业务扩展、数据增长和业务需求变化的需要。
3.3 具有前瞻性和完整的安全保障措施
目前多数高校主流业务都已经采用信息系统,由于整个信息系统的集中存储和共享,将会有多种不同类型,不同安全级别的数据共存于同一个存储阵列,因此必须充分满足当前应用系统的现状,构建的灾备体系具备完善的安全保护机制,确保核心业务信息的安全。
3.4 具有稳定而强壮的特性
关键的业务系统应该具备稳定及强壮的特性。把系统或系统工作的各个环节假定为理想环境状态下是一种不合理的假设。相反地,应经常思考系统可能是在一些不可预测的事件和情况下运行的,要想系统仍能正常工作的先决条件就要求组成这个系统的设备要稳定而强壮。
3.5 确保资金投入的高性价比
信息技术的一大特征是技术和产品的更新换代速度是其他行业前所未有的,高校信息化的开展是需要大量的资金投入,而多数高校的办学经费来源渠道有限,因此,我们要对投资进行合理的成本核算,不应只看购买的成本,而应当以总体拥有成本的大视角来看待。充分研究设备的扩展性,互连能力和使用寿命;特别地,要关注设备使用后对整体系统操作的改善、业务时效的增强等诸多方面的影响。
4 高校灾备体系解决方案实例——以浙江财经学院为例
4.1 系统总体解决方案及建设目标
浙江财经学院目前有三个校区,数据主要集中在下沙校区的网络中心机房和文华校区的网络中心机房,下沙中心机房作为本地灾备中心,文华机房作为同城灾备中心。两校区直线距离27.5km,光纤距离40多km,千兆带宽互连。目前下沙主用机房应用VMwar虚拟化为主,另有部分的非虚拟化应用,使IP SAN跟FC SAN两类存储,共50T存储。我们灾备体系的建设目标主要有一下几点:
第一,集中存储。将各分散独立的业务系统平台主机组建在一个高速的存储网络中,整个存储网络可以针对不同的应用实现基于FC、IP、iSCSI、FCIP、iFCP等接口的访问。以此来大大提高存储系统基于数据中心应用的多方面能力,降低存储资源管理的复杂性。
第二,网络级容灾。是从网络环境上考虑网络的冗余性,保证下沙本地灾备中心和文华灾备中心之间的网络链路和网络设备有冗余,能做到在本地灾备中心出现故障或灾难时,业务能快速切换到文华灾备中心,保持业务的连续性。
第三,同城数据级容灾。考虑今后以SAN集中存储网络为基础,采用远程数据镜像复制技术在下沙机房和文华容灾机房之间实现整体存储数据的同城异步复制,将整个业务系统的连续性提高到新的高度。
第四,同城应用系统级容灾。在数据级容灾的基础上实现同城应用级容灾,保证最大程度地实现业务连续性。
第四,本地备份。通过备份软件和虚拟磁带库,实现整个业务系统的全网备份,实现多层次备份体系结构,可以对业务关键数据实现离线保护和快速恢复。
浙江财经学院灾备体系总体框架结构见图2。
4.2 数据容灾备份设计
在我校下沙机房中心部署一台VNX磁盘阵列和一台DataDomam虚拟磁带库,并部署NBU备份软件,将VNX数据本地备份到虚拟磁带库。在同城容灾中心(文华校区)配置一台VNX的磁盘阵列,同时利用Mirror View/A远程复制功能,实现两个中心存储之间的数据同步,实现同城数据级容灾,容灾专网采用了千兆以太网。下沙机房磁盘阵列配置VNX5300容量70TB,可满足三年之内的数据量增长。 根据本文前部分综合分析,我校选用异步复制(MirrorView)的技术;下图是两种Mirror View技术对比:
4.3 应用级容灾备份设计
为了保障我校下沙机房关键业务的连续性,实现应用层业务的“零中断”,在同城灾备中心文华机房对关键性业务实现1:1的部署。方案配置使用VCE架构,计算平台使用思科UCS系统,Vmwam虚拟化部署;实现底层计算系统硬件的虚拟化;当下沙主数据中心某应用出现灾难时,可自动的切换到备用数据中心的应用系统上(配合应用负载均衡系统将会有更好的效果)。文华机房配置UCS5108统一计算刀片系统,UCS 5108机框内配置的3刀服务器提供计算资源,构建N+1硬件容灾,在UCSsorver profile动态配置硬件资源,为每个应用提供自动化的部署,提供硬件资源冗余;每刀服务器按照1:20部署虚拟化的应用系统;刀片服务器无需配置本地硬盘,使用SAN BOOT的方式启动。
4.4 本地备份方案描述
对于我校灾备系统的本地备份使用NBU备份软件和DataDomam虚拟磁带库,可保证在主存储出现问题时,本地有备份数据可以恢复业务数据。备份策略为对本地的数据库进行每天全备份,备份时间考虑在业务最少的时候凌晨1点开始,预计可以在两个小时内完成我校所有业务数据备份。在备份软件管理的配合使用上,配置一个或多个虚拟磁带库,并且根据不同应用的备份设置不同的虚拟磁带。另外,对于需要保存在物理磁带上的数据,选择同时备份到虚拟磁带库和物理磁带库上,但设置不同的保存周期;或者选择先备份到虚拟磁带库里,然后根据保存周期的策略定义,迁移到物理磁带库上。
该灾备体系的设计与实施,推动了浙江财经学院灾备工作的有效开展,灾备体系运行后,一旦主机房的主存储器发生灾难(故障),可直接切换容灾备份数据作为运行数据进行使用;而如果主数据中心应用发生灾难(故障),则可以直接切换容灾应用并将其作为运行应用来使用。这一方案的实现也为我们今后进行一些容灾实验和容灾演练提供了有效的环境,为将来开展学校两地三中心的容灾方案建设与实施奠定了基础。
5 总结
在高校的信息信息化建设中,灾备体系作为一种非常关键的在灾难发生时候的解决方式,其系统的体系化、规范化构建是非常必要的。灾备体系的构建并不仅仅只是软硬件系统的采购,灾备的策略、切换的流程、应急预案的设计都是建设的重要内容;同时,也要重视对人员的管理,对相应的人员进行深度职业技能培训和思想认识教育,在学习、演练的过程中逐步完善技术水平和思想认识。
随着高校信息化工作的不断深入,灾备体系的规划与建设工作也将不断地推进。希望本文所探讨的内容能对研究灾备系统在高校未来的广泛发展和应用能提供一定的参考和帮助。
参考文献
[1]中华人民共和国国家标准GB/T20988-2007,信息安全技术信息系统灾难恢复规范[S],北京:中国标准出版社,2007
[2]国务院信息化工作办公室,重要信息系统灾难恢复指南[Z],北京:国务院信息化办公室,2005
[3]杨义先,姚文斌,陈钊,信息系统灾备技术综论[J]北京邮电大学学报,2010(04)
[4]陈松,孔琳俊,教务管理系统数据库安全现状及对策分析[J],软件,2011(05)
[5]孔琳俊,陈松,数字化校园环境下异构数据映射维护关键技术分析[J],软件,2011(06)
[6]郝亮,金融保险业云灾备系统构建浅析[J],系统工程,2013(03)
[7]程志锐,戚丽,沈立强,刘乃嘉,高校信息系统灾备建设的研究与探讨[J],中山大学学报(自然科学版),2009(03)
[8]孔琳俊,曹超,浙江省高校教育信息化管理体制现状及其对策研究[J],软件,2012,(08)
关键词:高校;信息化;灾备体系
中图分类号:G642 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.03.028
1 高校进行灾备体系建设的必要性
随着信息技术的飞速发展和信息化应用的不断普及,高校教育信息化建设的紧迫性和重要性被提升到史无前例的高度。特别是近年来,教育部、浙江省教育厅相继成立专门组织机构负责教育信息化的推进工作,在“十二五”教育信息化规划及相关政策推动下,高校在网络基础设施、信息系统等方面都有了卓有成效的建设,进一步提升了信息化建设应用水平,为高校教学、科研、管理提供了高效的信息技术支撑平台,信息技术手段在高校的广泛使用,极大地影响了高校师生教、学、研及生活等多方面的改变。显然地,用户对信息化的依赖程度越来越高,信息化产生的数据量也爆发式的增长,随之而来的数据信息安全问题也日益突出。高校各类业务的核心是信息数据,而数据时刻都受到各种能预料到或预料不到风险的威胁,数据的安全性和抗风险的能力已经直接影响到高校各项日常业务的正常运行与开展,也成为师生用户对信息化服务满意度高低评判的基本指标。自然灾害,意外事故,人为错误,系统自身缺陷,还有恶意窃取和攻击,这些都在无时无刻的影响着我们的数据安全,信息数据有时候比物质更宝贵,它不可再生、无法替代,信息数据的损失有时会产生不可预计的严重后果,对师生个人的工作和生活,乃至对学校整体造成恶劣的影响。因此,我们必须重视信息安全问题,要加强灾备建设,特别是网络系统可靠性、业务连续性以及数据可用性急迫需要进一步加强,要求设计搭建一个安全、可靠、高效的灾备体系,以提高高校信息化运行的防灾能力。
2 高校灾备体系建设的技术要素
2.1 防范的风险范围
目前,很多高校在数据存储方面,一般都采用数据集中存储。数据集中的优势主要有:使得硬件设备一定程度或高度集中,提高了设备的使用率和互换性;数据和设备的管理得到了更有利的保障;能充分利用人力资源;可以低成本的、快速的对业务进行扩展;可以有效降低运营和总拥有成本。
但同时,高校数据的区域集中或大集中也带来了一些问题及相关风险,比如数据在高度集中后,需要管理模式和技术人员维护水平相应的改变和提高,以适应数据高度集中所带来的问题;另外,数据中心一旦受到灾难,那么将会造成大范围的影响。因此,对高校集中后的数据中心,总的来说,我们主要应考虑如下几方面的灾难风险,见表1。
对于可能的“计划外风险”,要设计连续可用的计算机系统,实现正常联机业务的连续运行。具体应该实现数据备份的并发进行;实现后台动作如数据仓库系统数据加载的并发进行;实现测试、开发系统的并发进行。
对于可能的“计划内风险”,我们要设计最快恢复的计算机系统,尽快实现正常联机业务的继续;对于电源和设施硬件故障,在主数据中心采取冗余设计,预防单点故障;对于软件故障,实行严格投产前测试;如升级中出现逻辑故障,视故障原因采取装入成熟版本、修正数据错误等方法尽快恢复系统的运行。
对于自然、人为等灾害造成整个数据中心无法运作时,就应生产切换到备份中心,尽快恢复系统的运行,并将数据的丢失率将为最低,直至为零。
2.2 灾备恢复的关键性衡量指标
在灾难恢复方面,主要有三个目标是我们努力的方向。第一是服务恢复时间,即用户单位能忍受多长时间没有服务;第二是网络多长时间能够恢复;第三就是业务层面的恢复。在整个恢复过程中,最关键的衡量指标有两个:一个是RTO,另一个是RPO。
(1)用户能容忍的最长停机时间(RTO,Recovery TimeObjective),是针对服务的丢失。指当计算机系统发生灾难故障造成工作停止时,致使业务中断或停顿所引起的损失程度,即从计算机系统当机导致业务停顿这个时间点开始,到计算机系统恢复,可以支持各部门运作、恢复提供服务这个时间点,这两点之间的时间段我们称之为RTO。
(2)用户能容忍的最大数据丢失量(RPO,RecoveryPoint Objective),是针对数据的丢失。指灾难发生前最后一次备份的时间,即系统本身及生产的数据可以恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是灾难发生前最后更新的实时数据。
高校信息化系统是一个范围大而复杂的系统,无论灾难恢复采用哪种衡量指标,最终目的是针对高校业务特点分析制定合理的、实用的、可实施的灾备体系,否则就失去了建立灾备体系的意义。我们建立灾备体系最根本的作用就是要确保灾难发生后信息化业务能够连续运行,数据完整保存,丢失越少越好。因此在设计灾备体系时用户单位要有一个底限。
2.3 容灾中心模式
目前,计算机系统数据中心的典型容灾模式常用的有以下两种:一是,选择两个数据中心的模式,即一个工作数据中心、一个灾难保护数据中心。采用这种模式需要先进行数据的集中,即整合,然后建设灾难保护系统。二是,保留多个区域数据中心,为每个区域中心建设灾难保护系统。这种模式投入较高,而且使数据中心变得更多,管理成本高昂,不适合高校的实际情况,不建议采用。两个数据中心的灾备方案是目前很多行业的灾备方案建设选用较多的方案之一。用户采用两个数据中心的灾难保护方案除了考虑成本的因素外,一个重要的原因是技术条件的限制。对于集中数据中心的灾难保护,多采用基于存储的数据复制技术来实现,在很多情况下也是唯一选择。采用基于存储数据复制技术的两个数据中心的灾难保护方案有两种选择:同步数据复制技术和异步数据复制技术。 同步数据复制技术能够保证零数据丢失,这是最理想的选择。但由于技术局限,同步数据复制技术必须在近距离范围内才能够实现。
而从对大规模灾难的保护看,距离越远越有利于灾难防范,采用远距离的灾难保护方案,则必须采用异步方式,在灾难发生时候必须承受一定的数据丢失。
以上两种技术各有利弊,同步方式对网络要求比较高,同步时不能出现网络中断的情况,而现在多数高校有多个校区,距离较远;另外,考虑到高校灾备级别对RPO/RPT的要求并不是非常高,因此,根据高校特点,主要采用异步复制方式。
2.4 技术的维护难度
一直以来,大多数高校对灾备体系没有足够的重视,一方面是对灾备的重要性认识不够,另一方面是由于容灾技术的复杂性和建设容灾系统需要高成本的投入,使得许多高校对构建容灾体系望而止步,在容灾系统建设及其管理的过程中,也会碰到许多问题,比如灾备维护比较繁复、进行灾备演习困难等。因此,我们无论选择何种关键容灾技术,都必须要考虑灾备系统管理的简易性与友好性以及技术实现的可靠性,能让校内网管人员可以方便、快捷的实现系统维护,这是在出现灾难时,能快速响应和处理的一个基础,这样才能使得我们构建的灾备体系多层次维护更为有效率、处理故障的能力更为强大。
3 高校灾备体系建设遵循原则
3.1 具有高可靠与高可用性:满足7X24关键业务的应用
对关键应用,系统的保护已经不再仅仅停留在数据保护上,而是要保护业务的7X24持续性。在高校,虽然不是所有业务像金融、电力、医疗等行业那样要求其业务系统保证7X24小时在线运行,但是一些关键业务如教务、OA、一卡通系统等,还是要保证业务持续性的。
在许多情况下,数据是安全的,但业务却不得不停顿下来,即造成所谓的“虚拟停机”。关键业务的业务持续性受到许多因素的挑战,大体上分为计划内停机和计划外两大类。计划内停机是由于数据备份、软件和系统升级、软件和应用测试等系统管理工作与业务应用程序竞争资源造成的。计划外停机是由于软件误操作、硬件故障和机房环境发生灾难造成的。如何确保7X24业务持续性,对用户都是极具挑战性的。
3.2 具有线性扩展能力和灵活的体系架构
高校信息化的深入开展,要求信息技术与教学、科研、管理的深度融合,会新建或更新升级信息系统和硬件设备系统,这就要求灾备体系的软件平台的可扩展性与硬件平台的可扩展性相互配合。并且在扩展时,保证系统性能的线性扩展能力,确保整个体系能够满足将来业务扩展、数据增长和业务需求变化的需要。
3.3 具有前瞻性和完整的安全保障措施
目前多数高校主流业务都已经采用信息系统,由于整个信息系统的集中存储和共享,将会有多种不同类型,不同安全级别的数据共存于同一个存储阵列,因此必须充分满足当前应用系统的现状,构建的灾备体系具备完善的安全保护机制,确保核心业务信息的安全。
3.4 具有稳定而强壮的特性
关键的业务系统应该具备稳定及强壮的特性。把系统或系统工作的各个环节假定为理想环境状态下是一种不合理的假设。相反地,应经常思考系统可能是在一些不可预测的事件和情况下运行的,要想系统仍能正常工作的先决条件就要求组成这个系统的设备要稳定而强壮。
3.5 确保资金投入的高性价比
信息技术的一大特征是技术和产品的更新换代速度是其他行业前所未有的,高校信息化的开展是需要大量的资金投入,而多数高校的办学经费来源渠道有限,因此,我们要对投资进行合理的成本核算,不应只看购买的成本,而应当以总体拥有成本的大视角来看待。充分研究设备的扩展性,互连能力和使用寿命;特别地,要关注设备使用后对整体系统操作的改善、业务时效的增强等诸多方面的影响。
4 高校灾备体系解决方案实例——以浙江财经学院为例
4.1 系统总体解决方案及建设目标
浙江财经学院目前有三个校区,数据主要集中在下沙校区的网络中心机房和文华校区的网络中心机房,下沙中心机房作为本地灾备中心,文华机房作为同城灾备中心。两校区直线距离27.5km,光纤距离40多km,千兆带宽互连。目前下沙主用机房应用VMwar虚拟化为主,另有部分的非虚拟化应用,使IP SAN跟FC SAN两类存储,共50T存储。我们灾备体系的建设目标主要有一下几点:
第一,集中存储。将各分散独立的业务系统平台主机组建在一个高速的存储网络中,整个存储网络可以针对不同的应用实现基于FC、IP、iSCSI、FCIP、iFCP等接口的访问。以此来大大提高存储系统基于数据中心应用的多方面能力,降低存储资源管理的复杂性。
第二,网络级容灾。是从网络环境上考虑网络的冗余性,保证下沙本地灾备中心和文华灾备中心之间的网络链路和网络设备有冗余,能做到在本地灾备中心出现故障或灾难时,业务能快速切换到文华灾备中心,保持业务的连续性。
第三,同城数据级容灾。考虑今后以SAN集中存储网络为基础,采用远程数据镜像复制技术在下沙机房和文华容灾机房之间实现整体存储数据的同城异步复制,将整个业务系统的连续性提高到新的高度。
第四,同城应用系统级容灾。在数据级容灾的基础上实现同城应用级容灾,保证最大程度地实现业务连续性。
第四,本地备份。通过备份软件和虚拟磁带库,实现整个业务系统的全网备份,实现多层次备份体系结构,可以对业务关键数据实现离线保护和快速恢复。
浙江财经学院灾备体系总体框架结构见图2。
4.2 数据容灾备份设计
在我校下沙机房中心部署一台VNX磁盘阵列和一台DataDomam虚拟磁带库,并部署NBU备份软件,将VNX数据本地备份到虚拟磁带库。在同城容灾中心(文华校区)配置一台VNX的磁盘阵列,同时利用Mirror View/A远程复制功能,实现两个中心存储之间的数据同步,实现同城数据级容灾,容灾专网采用了千兆以太网。下沙机房磁盘阵列配置VNX5300容量70TB,可满足三年之内的数据量增长。 根据本文前部分综合分析,我校选用异步复制(MirrorView)的技术;下图是两种Mirror View技术对比:
4.3 应用级容灾备份设计
为了保障我校下沙机房关键业务的连续性,实现应用层业务的“零中断”,在同城灾备中心文华机房对关键性业务实现1:1的部署。方案配置使用VCE架构,计算平台使用思科UCS系统,Vmwam虚拟化部署;实现底层计算系统硬件的虚拟化;当下沙主数据中心某应用出现灾难时,可自动的切换到备用数据中心的应用系统上(配合应用负载均衡系统将会有更好的效果)。文华机房配置UCS5108统一计算刀片系统,UCS 5108机框内配置的3刀服务器提供计算资源,构建N+1硬件容灾,在UCSsorver profile动态配置硬件资源,为每个应用提供自动化的部署,提供硬件资源冗余;每刀服务器按照1:20部署虚拟化的应用系统;刀片服务器无需配置本地硬盘,使用SAN BOOT的方式启动。
4.4 本地备份方案描述
对于我校灾备系统的本地备份使用NBU备份软件和DataDomam虚拟磁带库,可保证在主存储出现问题时,本地有备份数据可以恢复业务数据。备份策略为对本地的数据库进行每天全备份,备份时间考虑在业务最少的时候凌晨1点开始,预计可以在两个小时内完成我校所有业务数据备份。在备份软件管理的配合使用上,配置一个或多个虚拟磁带库,并且根据不同应用的备份设置不同的虚拟磁带。另外,对于需要保存在物理磁带上的数据,选择同时备份到虚拟磁带库和物理磁带库上,但设置不同的保存周期;或者选择先备份到虚拟磁带库里,然后根据保存周期的策略定义,迁移到物理磁带库上。
该灾备体系的设计与实施,推动了浙江财经学院灾备工作的有效开展,灾备体系运行后,一旦主机房的主存储器发生灾难(故障),可直接切换容灾备份数据作为运行数据进行使用;而如果主数据中心应用发生灾难(故障),则可以直接切换容灾应用并将其作为运行应用来使用。这一方案的实现也为我们今后进行一些容灾实验和容灾演练提供了有效的环境,为将来开展学校两地三中心的容灾方案建设与实施奠定了基础。
5 总结
在高校的信息信息化建设中,灾备体系作为一种非常关键的在灾难发生时候的解决方式,其系统的体系化、规范化构建是非常必要的。灾备体系的构建并不仅仅只是软硬件系统的采购,灾备的策略、切换的流程、应急预案的设计都是建设的重要内容;同时,也要重视对人员的管理,对相应的人员进行深度职业技能培训和思想认识教育,在学习、演练的过程中逐步完善技术水平和思想认识。
随着高校信息化工作的不断深入,灾备体系的规划与建设工作也将不断地推进。希望本文所探讨的内容能对研究灾备系统在高校未来的广泛发展和应用能提供一定的参考和帮助。
参考文献
[1]中华人民共和国国家标准GB/T20988-2007,信息安全技术信息系统灾难恢复规范[S],北京:中国标准出版社,2007
[2]国务院信息化工作办公室,重要信息系统灾难恢复指南[Z],北京:国务院信息化办公室,2005
[3]杨义先,姚文斌,陈钊,信息系统灾备技术综论[J]北京邮电大学学报,2010(04)
[4]陈松,孔琳俊,教务管理系统数据库安全现状及对策分析[J],软件,2011(05)
[5]孔琳俊,陈松,数字化校园环境下异构数据映射维护关键技术分析[J],软件,2011(06)
[6]郝亮,金融保险业云灾备系统构建浅析[J],系统工程,2013(03)
[7]程志锐,戚丽,沈立强,刘乃嘉,高校信息系统灾备建设的研究与探讨[J],中山大学学报(自然科学版),2009(03)
[8]孔琳俊,曹超,浙江省高校教育信息化管理体制现状及其对策研究[J],软件,2012,(08)