论文部分内容阅读
故障检测是设计高可用系统的一项关键技术,本文研究了双模高可用容错服务器的故障检测机制。首先,通过马尔科夫模型对服务器系统进行了分析,指出设计高覆盖率和高成功率的故障检测机制对系统可用性的重要影响。针对传统使用的故障检测机制成功率较低的问题,提出了一种仲裁检测机制,仲裁系统采用容错方案设计,具有较高的可靠性,在双机无法对故障做出正确判断时,可作为可信的第三方对故障做出准确的定位,有效地提高了系统的检测成功率。在此基础上,一种基于仲裁的多层心跳检测机制被应用到了实际系统的设计中,并通过试验证明了其可满足可用性