论文部分内容阅读
随着计算机爆炸式的发展,计算机系统被广泛地应用于航空、金融、交通、电信、医疗、教育等与人们生活息息相关的各行各业之中,已经成为这些行业当中的信息维护和管理必不可少的基础设备。这一特性使得容错计算的发展和应用更加的广泛和深入,因此,计算机可靠性研究也成为计算机的热门研究领域。然而计算机遵循摩尔定律的快速发展,这就造成集成电路密度增加,从而导致温度产生的热效应、电流产生的功耗等引发故障的因素大大增加,使得电路触发瞬时故障、间歇故障或者永久故障的概率也大大增加。为此,开展对处理器硬件故障层次化软件容错技术的研究十分有必要。本课题专注于处理器硬件结构级的故障行为特性的分析,工作核心是完成一个基于联合仿真的异常事件捕获系统。从剖析指令RAS(Riesling ArchitectureSimulator)集模拟器和RTL仿真器入手。第一部分工作是分析了系统组成,模拟器流水线和内部功能单元等细节。再者,设计了模拟器与仿真器通讯接口,并定义了异常信号集,作为异常捕获系统入口的重要组成部分。最重要的研究工作是异常捕获系统的设计,其是围绕三大异常捕获模块的详细设计而展开的。TLB异常捕获模块主要工作是捕获TLB相关的异常,并进行同步TLB相关操作;中断异常捕获模块针对不同的中断分支捕获陷阱操作;Memory异常捕获模块对指令预取和读写操作设计相应的捕获单元,并维持存储同步。这样异常捕获系统在联合仿真进行故障注入之际,能够自动地收集系统交互信息,并捕获与黄金参考模型不一致的异常症状。最后利用联合仿真平台进行故障注入实验,并启动异常事件捕获系统。实验过程中收集异常症状信息,分析大量的实验数据,得到故障在结构级的行为表现和症状分布。同时利用故障症状信息作为BP神经网络的输入分类特征信息而进行故障诊断。