论文部分内容阅读
近年来,对高可靠性和高可用性的分布式计算系统的应用需求一直在稳定地增长,比如全球个人以及军用通信系统、航空控制系统、网络管理平台、金融系统等。随着分布式计算系统中应用范围的扩展以及节点数量的增加,网络异构问题也日益突出,基于分布式系统设计的软件系统也越来越庞大、复杂,系统中出现故障的概率越来越高,如果不采取容错措施,一旦分布式应用被故障中断,就要重新启动系统、重新执行应用,那么所要执行的任务可能需要很长时间才能完成,甚至根本完成不了。因此,研究分布式系统应用中的容错技术具有重大的理论指导意义和实际应用价值。后向恢复技术是当今容错技术研究领域的热点,包括以下几个研究方向:检查点算法(包括提高检查点设置的效率、降低检查点的开销、有效地控制回卷的距离等):容错回卷回复的系统模型;算法的性能评估和优化策略;分布式计算系统的故障特征和检测;捕获和恢复进程状态等。本课题的提出来源于山东省自然科学基金项目“基于后向恢复的异构分布式系统容错技术的研究与实现”。本文介绍了分布式系统容错技术的研究现状、分布式系统中的常见故障以及容错技术涉及的相关概念、定义;指出了分布式容错系统存在的必须解决的各种问题,如:孤儿消息、传输中消息、检查点开销,多米诺效应等问题;介绍了如何消除非全局一致的检查点状态的条件和定理;分析了分布式系统容错技术中各种检查点技术和各种消息日志技术的原理、性能和优缺点;分析了影响检查点算法性能的瓶颈因素,研究了分布式系统容错检查点算法设置的原则,比如减少检查点设置和回卷回复时进程的阻塞,提高检查点设置效率,减少控制消息的数量等。本文所做的主要工作有以下几个方面:1)分析研究了有限状态机扩展模型及其算法,并对该模型进行了改进,使得该模型的功能更强大,适应范围更广范。2)提出了一种高效的异步存储非阻塞的协调检查点算法ASNB,从三个方面考虑降低检查点设置时的开销:允许多个进程并发的在进程状态信息量较小的时候设置检查点;在稳固存储器空闲的时候异步存储检查点;设置检查点的过程中不需要阻塞进程的基本执行。3)给出ASNB算法的改进算法,使得进程在设置检查点时只卷入有依赖关系的最少的进程设置强制检查点,非常适用于进程对计算损失敏感度有较大差异的系统,使不同的进程可以采用不同的间隔设置检查点,对于每个进程设置检查点频率差别较大的系统,大大减少了其设置检查点时的开销。