论文部分内容阅读
计算机技术引发的第三次工业革命的浪潮中,计算机系统已广泛应用各行各业,极大地促进了社会经济的发展,与此同时对整个计算机系统的可靠性和稳定性也提出了更高的要求。譬如在金融、电信和政府等领域,作为关键设备的服务器担负着大量重要信息的处理、存储和传递的任务,一旦服务器发生故障,将会带来无可估量的损失。因此,保证关键服务器连续、稳定的运行已成为计算机系统应用中的迫切需要。高可用集群系统就是以为终端用户提供持续稳定的服务为目的,成为当前热门的研究课题。但是纵观目前国内市场,大多是双机容错的集群系统,即两台服务器加一台或两台磁盘阵列实现的双机热备的工作环境。目前许多行业需要实现高可用的关键业务比较多,如果每一业务都建立双机系统的话,不仅代价是惊人的,而且增加了管理的复杂性。应运而生的多节点集群技术则可以满足这类系统的高可用需求。正因为如此,多节点集群技术有着广阔的市场前景。但目前由于技术壁垒以及研发投入等诸多问题,以多节点集群为代表的高端市场基本上被国外厂商所垄断。笔者经过大量的分析论证,提出了一个基于存储网络的多节点高可用系统架构方案,详细分析并解决该模型在实现中的几个核心问题和技术难点,最后实现一个具有基本功能的、基于网络的、支持多节点的高可用系统。本文通过对高可用系统市场需求的把握,全面分析集群技术的应用现状,提出多点集群的概念及市场前景,并就多节点集群的设计方案展开研究,创建高可用多节点集群系统的一种实现模型,同时指出该方案中的技术难点及需要解决的关键问题。文中重点围绕多节点集群软件中的核心——多机协同技术,通过对基于投票的心跳模型存在的问题的深入剖析,推出解决冗余链路选择的心跳模型设计方案,建立基于多链路数据交换的心跳模型。该模型可以选择合适的通讯链路、快速地采集系统中各节点的状态信息、准确地监测到系统的故障、及时对失效节点作出判断。该模型的实现有效降低了多机环境下节点间协同工作的复杂性,保障了节点间信息交互的及时性和可靠性,解决了多机集群软件设计中的技术难点。文中同时对集群系统的故障迁移技术进行了深入研究,设计了几种故障接管模式,运用马尔可夫模型从理论上分析了集群系统在“多备一”模式下的可用性。最后一章是全文的总结。本文实现的多点集群方案超越了现在流行的双机系统,具有技术领先和适应市场需求的优势。本设计方案主要用于具有关键业务环境的各行业用户,可以保证系统不间断地运行,可实现系统多个业务环境的整合。该方案已经被大量行业用户认可,并成功的在用户环境中实施,取得了非常好的效果。