论文部分内容阅读
集成电路制造工艺的不断发展使得微处理器计算的可靠性面临着瞬时故障的严重威胁,尤其是在超深亚微米级别,瞬时故障发生的机率将大大增加。同时由于计算机体系结构的快速发展,当前的微处理器已经进入多核时代。因此,有必要针对多核计算平台下的容错技术展开深入研究。针对微处理器的瞬时故障容错技术的研究,目前已经深入到计算机体系结构中的处理器层、操作系统层、编译层和应用程序层。本文首先对故障进行了介绍,并从故障对应用程序执行正确性的角度对故障进行了分类。在对故障有了充分的认识之后,对目前在软硬件容错方面的容错技术进行了充分研究,其中对硬件容错技术进行了简单的介绍,对从软件体系结构的各个层次的角度对软件容错技术进行了详细的研究,包括操作系统层、编译层以及应用程序层。在充分研究了各种容错技术之后,针对目前的国产多核处理器平台,提出了一种在操作系统层面基于系统调用的进程冗余检测技术,并对该技术的设计原理进行了详细的介绍,包括其中的缓存模块、检测模块、同步模块等。最后,在国产龙芯多核处理器计算平台下,在linux内核级实现并验证了该检测技术方案。实验结果表明,本检测方案能够充分利用多核处理器的并行计算能力,检测到由于瞬时故障引发的系统错误,并满足一定的性能要求。