【摘 要】
:
在大型计算环境中,故障的发生不可避免,而由此造成的损失也是巨大的。容错技术的应用在一定程度上能够减少故障的发生带来的影响,提高系统可靠性。进程级的容错则是直接针对
论文部分内容阅读
在大型计算环境中,故障的发生不可避免,而由此造成的损失也是巨大的。容错技术的应用在一定程度上能够减少故障的发生带来的影响,提高系统可靠性。进程级的容错则是直接针对运行任务本身容错机制,能够保证任务运行的连续性和故障发生后的快速恢复,其中检查点设置与回卷恢复技术是一种常用方法。本文所设计的进程级容错系统即是基于检查点实现的。为了满足系统需求,需要解决两个主要问题,一是检查点设置时间问题,一是保证检查点状态一致性问题。传统的静态等间距检查点间隔模型能够初步完成检查点的设置,但由于它不能适时的根据故障概率分布的变化而动态的对检查点间隔时间做出调整,所以在实际的应用中会导致较大的开销。为此,本文提出了动态非等间距检查点间隔模型,此模型能动态的调整检查点间隔时间,较之静态方法降低了开销。传统的全局阻塞协议能够简单保证检查点状态一致性,但是在进程数较多时,由阻塞等待引起的时延却较大。考虑到进程间的通信在规模、范围、时间方面具有随机性和不确定性,本文提出对进程采用分组机制,做到组内通信,组间无通信,在做检查点时,组间使用无阻塞协议,组内使用阻塞协议,从而形成一个局部阻塞的过程,即局部阻塞一致性协议。通过以上两方面优化,本文所设计的容错系统较之传统方法能够更好的适应动态复杂的大型计算环境容错需求。为验证本文提出方法的正确性和有效性,设计和实现了一个基于检查点优化的进程级容错系统,实验结果表明,本系统能够在解决多米诺效应,一致性问题的前提下,进一步降低开销,减少任务实际执行时间,提高性能。
其他文献
随着现代信息技术的快速发展,对数字通信系统的要求越来越高。在通信编码领域出现了一种低密度奇偶校验(Low-Density Parity-Check,简称LDPC)码,该码字具有低复杂度、纠错能
为了解决异构环境下的数据库系统互操作问题,本文提出了一个基于元数据驱动的数据库连接体系结构,旨在设计一个可适用于任何数据库的无平台限制接口平台,提供元数据驱动访问机制
近年来,随着闪存技术的飞速发展,闪速存储器(Flash Memory)的高性能、非易失性(Non-Volatility)、能耗低、抗震动、存储容量高等优点被人们发掘,扩大了其在嵌入式系统中的应
W3C于1998年2月制定出XML规范以来,XML已逐渐成为科学与技术应用中数据表示以及数据交换的标准格式,尤其是在Web数据集成方面得到越来越广泛的应用。本文基于这一背景,对XML
电力系统设备缺陷预测是从缺陷时间序列中发现其背后的规律,通过对设备当前和历史缺陷数据的分析,对未来可能发生的缺陷进行分析和预测,帮助检修人员提前做好缺陷处理准备及为管理者提供决策,具有很强的理论和现实意义。 全文主要的研究内容和成果概括如下: 首先,本文将时间序列分析方法应用于设备缺陷的趋势预测中,采用了自回归一移动平均和人工神经网络两种时间序列的方法对电厂设备...
论文研究和设计了基于组件技术的异构数据集成与转换系统,对异地异构数据源的数据进行数据汇总、抽取以及转换,并将数据装载到目标数据库中,方便用户及时访问到需要的各种数
本文在对UCMs技术进行了研究的基础上,将UCMs和UML技术应用于某企业评审管理系统软件的需求分析和高层设计阶段,采用UCMs技术建立需求模型,通过对作为黑盒的软件系统模型进行逐
Agent技术,特别是多Agent技术在基于网络的分布计算这一当今主流技术领域中,发挥着日益重要的作用。它不仅为分布式应用问题提供了有效的解决途径,还为研究分布式计算系统的特点
近年来,随着计算机网络与通信技术、多媒体技术的快速发展,传统的监控系统也不断向着新的发展方向进行着不断的更新与发展。进而出现了结合计算机网络技术、多媒体技术及通
本文主要针对Grassmann空间中的递归曲线、曲面进行了深入的理论研究,推导出有理Bezier曲线、曲面和有理B样条曲线、曲面与有理L、w曲线、曲面的关系,采用Blossom算法,研究了递