分布式系统后向恢复容错技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:henan8810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,对高可靠性和高可用性的分布式计算系统的应用需求一直在稳定地增长,比如全球个人以及军用通信系统、航空控制系统、网络管理平台、金融系统等。随着分布式计算系统中应用范围的扩展以及节点数量的增加,网络异构问题也日益突出,基于分布式系统设计的软件系统也越来越庞大、复杂,系统中出现故障的概率越来越高,如果不采取容错措施,一旦分布式应用被故障中断,就要重新启动系统、重新执行应用,那么所要执行的任务可能需要很长时间才能完成,甚至根本完成不了。因此,研究分布式系统应用中的容错技术具有重大的理论指导意义和实际应用价值。后向恢复技术是当今容错技术研究领域的热点,包括以下几个研究方向:检查点算法(包括提高检查点设置的效率、降低检查点的开销、有效地控制回卷的距离等):容错回卷回复的系统模型;算法的性能评估和优化策略;分布式计算系统的故障特征和检测;捕获和恢复进程状态等。本课题的提出来源于山东省自然科学基金项目“基于后向恢复的异构分布式系统容错技术的研究与实现”。本文介绍了分布式系统容错技术的研究现状、分布式系统中的常见故障以及容错技术涉及的相关概念、定义;指出了分布式容错系统存在的必须解决的各种问题,如:孤儿消息、传输中消息、检查点开销,多米诺效应等问题;介绍了如何消除非全局一致的检查点状态的条件和定理;分析了分布式系统容错技术中各种检查点技术和各种消息日志技术的原理、性能和优缺点;分析了影响检查点算法性能的瓶颈因素,研究了分布式系统容错检查点算法设置的原则,比如减少检查点设置和回卷回复时进程的阻塞,提高检查点设置效率,减少控制消息的数量等。本文所做的主要工作有以下几个方面:1)分析研究了有限状态机扩展模型及其算法,并对该模型进行了改进,使得该模型的功能更强大,适应范围更广范。2)提出了一种高效的异步存储非阻塞的协调检查点算法ASNB,从三个方面考虑降低检查点设置时的开销:允许多个进程并发的在进程状态信息量较小的时候设置检查点;在稳固存储器空闲的时候异步存储检查点;设置检查点的过程中不需要阻塞进程的基本执行。3)给出ASNB算法的改进算法,使得进程在设置检查点时只卷入有依赖关系的最少的进程设置强制检查点,非常适用于进程对计算损失敏感度有较大差异的系统,使不同的进程可以采用不同的间隔设置检查点,对于每个进程设置检查点频率差别较大的系统,大大减少了其设置检查点时的开销。
其他文献
随着计算机软件技术的快速发展,软件产品已经应用到社会的各个领域,现今的软件已经逐步成为构件组装的集合体,这样,每个构件的质量的好坏将直接影响到软件的整体质量。所以,
流水作业调度问题是一类具有广泛应用的组合优化问题。总完工时间、总误工时间、最大完工时间和总加权误工时间是几个重要的性能指标。论文对最小化总完工时间的流水作业调度
近年来,软件网络化、服务化的趋势使得软件的交付模式、应用模式、产品形态和商业模式都产生了巨大变化,软件已经成为一种服务(Software as a service,SaaS),即人们以“使用
随着计算机互联网的蓬勃发展,网络攻击频繁发生,如蠕虫病毒、分布式拒绝服务攻击(DDoS)、端口扫描等。这些攻击事件在短时间内产生大量的网络链接,导致网络堵塞甚至瘫痪。如
序列模型就是结构化模型中的一个经典模型,在自然语言处理、计算机视觉、生物信息学等领域得到了广泛的应用。对其模型及算法的研究和改进,具有重大的意义和实用价值。在过去
基于视觉的智能导航系统是机器视觉领域中的研究热点之一。道路识别算法作为智能导航系统的重要组成部分,采用图像处理、机器学习与模式识别等技术检测道路路面,为智能导航系
学位
随着经济全球化和市场国际化,使得企业间的竞争日趋激烈,企业的生产过程也越来越复杂,企业要保持核心竞争力,就必须要使其各个业务流程紧密联系,协同配合。计算机支持的协同
体系结构的发展使得大规模集群已经发展到多核的时代,多核架构对并行计算提出了新的要求。通信在并行计算中扮演着重要的作用,提升多核架构下通信的效率对提升并行计算的效率
图像的高层语义与低层特征之间存在着巨大的“语义鸿沟”,这是图像检索发展过程中一个无法回避的问题。随着研究的深入,人们发现基于内容的图像检索(Content-BasedImageRetri