论文部分内容阅读
随着科学技术的发展,工业生产自动化的程度日益提高,自动化控制系统也日趋复杂。不但对控制系统的处理速度提出了更高的要求,而且要求系统也同时需要具有很高的安全可靠性以及及时准确性。这就要求控制系统在硬件上,特别是软件上既要保证系统的实时性,同时又能很快的处理系统中出现的错误。正是在这种前提下,并行技术与多处理器技术得到了广泛的应用,并且相互融合,产生了多处理器并行技术。容错(Fault-tolerance)技术即容忍故障,考虑故障一旦发生时能够自动检测出来并使系统能够自动恢复正常运行。当某些指定的硬件故障或软件错误发生时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中止或被修改,并且执行结果也不包含系统中故障所引起的差错。本文的主要内容就是阐明如何在并行多处理器系统中实现系统容错的具体方法。本文首先分析了并行多处理器系统容错所需要的多处理器技术、并行计算技术以及容错技术的理论。其次再结合所使用的系统,阐述并行多处理器系统容错的硬件基础以及具体的软件实现方法。本文的着重点是并行多处理器系统容错的软件实现。文章分别从系统的实时任务和后台任务两个方面阐明了实时容错以及自检容错两种容错方式的具体实现过程。实时容错主要是在系统的正常运行中,随时检测系统中CPU、总线及总线上IO设备、外围传感器、多CPU间通讯、输入输出数据等功能模块的工作状态。根据检测结果依次判断各个功能模块是否出现故障,甚至导致整个系统出现不稳定的状态,并随时将检测故障的数据告诉监控人员,由其决定系统是否需要继续工作。这些都是由根据并行多处理器系统的特点所决定的。自检容错是在系统维护时执行的任务,没有实时性的要求,一定要确保完成所需要的自检内容。程序主要检测各种硬件设备的工作状态是否正常,通过先将数据写到输出端口,再将从输入端口读回的反馈数据与预期结果进行比较的方法来判断各个设备的工作状态。自检完成后,将各个设备的故障记录告知维护人员,由维护人员根据具体的故障信息对系统硬件进行处理,更换故障设备,并决定系统是否可以投入到正常的工作中。