论文部分内容阅读
进程检查点机制是在进程正常运行的适当时刻设置检查点,将进程状态通过检查点文件保存到稳定存储器中。如果进程在随后的运行过程中发生故障,则从存储器中读出保存的进程状态,将进程卷回恢复,继续运行,从而避免从头开始执行,减少计算损失。在计算机技术广泛应用的背景下,如何保证系统具有一定的可靠性以避免灾难性后果的发生,是当前研究的一个十分重要的领域。目前随着系统规模不断增长,应用程序的日益复杂,使得现有系统中缺陷不断增多,出错概率大大增加。为保证系统的高可靠性,检查点技术被广泛应用并成为目前计算机研究领域的一个热点。另外,随着Linux系统不断普及,基于此操作系统的应用也越来越广泛,因此将进程检查点机制应用于本系统,以提高系统软件的容错性也越来越受到重视。本文首先对课题来源、背景、意义以及目前国内外研究现状进行相关介绍。通过对现有典型检查点系统进行分析对比,总结了各自检查点系统的优缺点。然后介绍了检查点技术和其他相关关键技术及其原理。本文接着重点介绍了进程检查点系统的设计与实现。该系统主要分为四大模块:故障检测模块、状态保存模块、写文件模块、进程恢复模块。故障检测模块能够实现对目标进程的实时保护,使进程正常运行;状态保存模块是将正常运行的目标进程状态,如进程内存映像、CPU寄存器、信号、打开文件等进行提取并保存;写文件模块负责将进程状态提取保存的状态写入到检查点文件中;恢复模块主要是在进程出现故障时,将保存的状态恢复到之前正常运行时刻使进程继续往下执行。其次,编写目标程序对系统各个模块的运行进行相关验证,保证各个模块顺利执行。包括故障检测模块可以实时的检测目标进程的运行状态,状态保存模块可以在目标进程正常运行时保存进程状态信息,写文件模块可以将保存的进程状态信息写入到文件中,恢复模块可以在进程发生错误时将其恢复到正常状态。最后,对本论文的主要工作进行总结,并针对现有的问题提出下一步的改进和完善措施。