论文部分内容阅读
【摘要】既有南京地铁机场线ZLC系统不具备核心服务器集群功能,发生单台服务器故障时,无法进行热备切换,造成系统宕机。综合对比传统双机热备与新的设计思路,从ZLC系统目前既有框架、改造成本等方面考虑,本次设计思路结合老线双机热备和新线负载平衡系统的设计理念,加上ZLC实现双机集群的必要性。考虑到既有ZLC机房环境的局限性,从实际出发,充分利用当前设备,在成本最小化的前提下,从设备物理连接方式、集群技术、业务逻辑等方面考虑,设计出一套完整的并具实施可行性的双机集群模式。
【关键词】ZLC系统;MSCS集群;集群管理;
随着南京地铁线网规模的不断扩大,南京机场线线路中心已由接入1条机场线发展为接入机场线、宁高、宁溧3条线的区域线路中心ZLC,需同时处理三条线路的设备监控、文件处理、参数下发等主要功能。一旦ZLC通讯处理业务服务器或文件处理业务服务器发生宕机,故障期间会严重影响三条线路的设备正常监控、线路数据文件的处理及上传等核心功能。
1.设计思路驱动
通过充分对比传统和双机集群的优缺点,最终确定实施双机集群方案。
①传统方案:就是将服务器安装成互为备份的两台服务器,并且在同一时间内只有一台服务器运行。当正在运行的主服务器出现故障无法工作时,另一台备用服务器会立即启动并运行,从而保证AFC中央系统的业务正常运行。针对现场生产环境,文件处理服务器和通讯服务器需各自增加一台。
优点:技术改造难度小,对现场设备运行影响不大。
缺点:需额外增加2台服务器,改造成本大,浪费现场可用资源。
②双机集群方案:充分利用现有机房环境和设备,通过资源整合,将两台服务器的业务部署到其中一台上,另一台作为备用服务器,利用现场磁盘阵列部分空间作为共享存储,实现双机集群的功能。
优点:最大化节省成本,充分调用既有设备资源,系统运行更稳定可靠。
缺点:设计思路复杂,现场部署施工难度大。
2.物理连接设计
①传统方案:通讯服务器和数据处理服务器分别采用2台服务器作为主备。
②双机集群方案:为实现MSCS集群,需要将两台通讯服务器和数据处理服务器分别连接到2台SAN交换机和2台核心交换机,除此之外,每台服务器还需增加1根网线至核心交换机用于管理口连接,合计每台通信服务器需增加3根网线,2对(1收1发为1对)光纤。
考虑MessageServer、FileServer都需要与ACC通信,建议保持对外服务172.180.20.115和172.180.20.116对外服务地址不变,增加172.180.20.111和172.180.20.112作为新设通信服务器1/2的本机地址,增加172.180.20.110作为MSCS集群管理地址。
3.业务逻辑处理设计
当一个节点发生故障,MSCS集群将会把相应的对外服务地址及共享磁盘切换至另一节点,另一台服务器通过脚本自动启动对应业务,确保服务不间断运行。
对于共享方式,核心业务放在共享的存储设备上。当其中一台服务器两个核心业务正常运行时,直接在磁盘阵列划分的专用存储空间上进行数据读写。而当服务器故障后,系统自动切换,另一台服务器也同样读取该存储设备上的数据,这种方式由于数据的一致性由共享存储设备来保障,不占用系统资源,而且没有数据传输的延迟。具体业务逻辑如下图:
4.系统软件设计
目前ZLC的通讯处理MessageServer和文件处理FileServer都部署于本地D盘,在新的设计方案中,须将相关软件部署于各自的共享磁盘(E盘为通讯处理MessageServer共享磁盘,F盘为文件处理FileServer共享磁盘)。目前SC连接ZLC的ftp目录均指向本地D盘,需要修改所有车站ftp配置,将新的路径指向各自共享磁盘(E盘为MessageServer共享磁盘,F盘为FileServer共享磁盘)。
另外实现自动切换,需要将MessageServer、FileServer的自启停脚本加入到集群脚本中。
结束语
核心服务器双机集群模式通过最小成本实现了机场线ZLC区域中心所辖3条线路的稳定运营。
在单台服务器故障后實现核心业务正常无缝无差别继续运行,保证了中央系统对各车站设备状态的正常监控,数据正常接收解析,收益客流数据正常上报等,实现了ZLC核心服务器发生故障对业务和现场零影响的效果,显著提高了AFC专业现场服务质量。
在以后新线建设中,各专业的服务均可借鉴本次改造的方案,实现应用的集中部署,集群管理,即提高了应用的可靠性,也复用了服务器资源,为公司节约新线建设开支,减少故障量。
参考文献:
[1]姜坚华. 双机热备系统的技术研究和具体实现[J]. 微型电脑应用,2004(03):7-9.
[2]刘韫晖,宋茂强.基于消息同步的双机热备份系统[J].北京邮电大学学报,1998,21(2)
【关键词】ZLC系统;MSCS集群;集群管理;
随着南京地铁线网规模的不断扩大,南京机场线线路中心已由接入1条机场线发展为接入机场线、宁高、宁溧3条线的区域线路中心ZLC,需同时处理三条线路的设备监控、文件处理、参数下发等主要功能。一旦ZLC通讯处理业务服务器或文件处理业务服务器发生宕机,故障期间会严重影响三条线路的设备正常监控、线路数据文件的处理及上传等核心功能。
1.设计思路驱动
通过充分对比传统和双机集群的优缺点,最终确定实施双机集群方案。
①传统方案:就是将服务器安装成互为备份的两台服务器,并且在同一时间内只有一台服务器运行。当正在运行的主服务器出现故障无法工作时,另一台备用服务器会立即启动并运行,从而保证AFC中央系统的业务正常运行。针对现场生产环境,文件处理服务器和通讯服务器需各自增加一台。
优点:技术改造难度小,对现场设备运行影响不大。
缺点:需额外增加2台服务器,改造成本大,浪费现场可用资源。
②双机集群方案:充分利用现有机房环境和设备,通过资源整合,将两台服务器的业务部署到其中一台上,另一台作为备用服务器,利用现场磁盘阵列部分空间作为共享存储,实现双机集群的功能。
优点:最大化节省成本,充分调用既有设备资源,系统运行更稳定可靠。
缺点:设计思路复杂,现场部署施工难度大。
2.物理连接设计
①传统方案:通讯服务器和数据处理服务器分别采用2台服务器作为主备。
②双机集群方案:为实现MSCS集群,需要将两台通讯服务器和数据处理服务器分别连接到2台SAN交换机和2台核心交换机,除此之外,每台服务器还需增加1根网线至核心交换机用于管理口连接,合计每台通信服务器需增加3根网线,2对(1收1发为1对)光纤。
考虑MessageServer、FileServer都需要与ACC通信,建议保持对外服务172.180.20.115和172.180.20.116对外服务地址不变,增加172.180.20.111和172.180.20.112作为新设通信服务器1/2的本机地址,增加172.180.20.110作为MSCS集群管理地址。
3.业务逻辑处理设计
当一个节点发生故障,MSCS集群将会把相应的对外服务地址及共享磁盘切换至另一节点,另一台服务器通过脚本自动启动对应业务,确保服务不间断运行。
对于共享方式,核心业务放在共享的存储设备上。当其中一台服务器两个核心业务正常运行时,直接在磁盘阵列划分的专用存储空间上进行数据读写。而当服务器故障后,系统自动切换,另一台服务器也同样读取该存储设备上的数据,这种方式由于数据的一致性由共享存储设备来保障,不占用系统资源,而且没有数据传输的延迟。具体业务逻辑如下图:
4.系统软件设计
目前ZLC的通讯处理MessageServer和文件处理FileServer都部署于本地D盘,在新的设计方案中,须将相关软件部署于各自的共享磁盘(E盘为通讯处理MessageServer共享磁盘,F盘为文件处理FileServer共享磁盘)。目前SC连接ZLC的ftp目录均指向本地D盘,需要修改所有车站ftp配置,将新的路径指向各自共享磁盘(E盘为MessageServer共享磁盘,F盘为FileServer共享磁盘)。
另外实现自动切换,需要将MessageServer、FileServer的自启停脚本加入到集群脚本中。
结束语
核心服务器双机集群模式通过最小成本实现了机场线ZLC区域中心所辖3条线路的稳定运营。
在单台服务器故障后實现核心业务正常无缝无差别继续运行,保证了中央系统对各车站设备状态的正常监控,数据正常接收解析,收益客流数据正常上报等,实现了ZLC核心服务器发生故障对业务和现场零影响的效果,显著提高了AFC专业现场服务质量。
在以后新线建设中,各专业的服务均可借鉴本次改造的方案,实现应用的集中部署,集群管理,即提高了应用的可靠性,也复用了服务器资源,为公司节约新线建设开支,减少故障量。
参考文献:
[1]姜坚华. 双机热备系统的技术研究和具体实现[J]. 微型电脑应用,2004(03):7-9.
[2]刘韫晖,宋茂强.基于消息同步的双机热备份系统[J].北京邮电大学学报,1998,21(2)