论文部分内容阅读
随着处理器设计朝更小的晶体管特征尺寸、更低的工作电压和更高的频率发展,瞬时故障引发的可靠性问题已经引起整个计算市场的关注。由于不同领域的用户对系统可靠性、成本、性能、功耗等指标的要求不同,如何面向不同用户的不同需求提供可靠性和代价满足约束的可靠性解决方案,成为处理器设计者必须面对的挑战。为了应对这种挑战,本文重点研究了可配置、低代价的容错保护技术。此外,为了分析瞬时故障的影响和容错技术的可靠性,本文也研究了基于故障注入的可靠性分析技术。具体来说,本文工作可以分为以下四个方面:1.处理器运算单元中的故障可能导致程序运行出现数据流错误或控制流错误。其中,数据流错误检测通常基于冗余计算的方法进行,如何降低冗余计算的开销(性能、硬件开销等)是困扰容错研究至今的难点问题。为了解决这一问题,本文结合软、硬件容错技术的优势,提出了一种可配置的数据流检测技术Epipe。Epipe首先通过改造现有的超标量流水线处理器,提供了一个能够对指令进行选择性冗余保护的硬件平台。由于超标量处理器中有丰富的计算资源,Epipe平台只需要很少的硬件开销。为了减少冗余保护产生的性能开销,Epipe还基于程序分析方法评估每个指令的重要性,即指令发生故障后导致程序输出错误结果的概率。程序运行时,Epipe根据用户的性能和可靠性要求选择保护最重要的一部分指令。Epipe的创新点在于,Epipe只冗余保护发生故障后导致程序输出错误结果的指令,对于导致系统异常或超时的故障则直接利用系统中的异常检测机制加以处理,而剩余的不会影响程序执行的故障(即被屏蔽的故障)则不需要任何处理。这种分类处理故障的方法有效地减少了需要冗余保护的指令,再结合时空开销较低的硬件指令保护技术,使得Epipe技术可以更低的开销保护程序数据流。2.实现控制流检测的一种有效技术是软件实现的标签分析方法。已有的标签分析技术除了存在时空开销过大和可靠性不足的问题外,还缺乏可配置性,无法满足不同用户的不同需求。此外,软件检测技术引入的冗余代码自身也有可能发生错误,现有的控制流检测技术在容错机制的自我保护方面缺乏研究。为了克服上述不足,本文提出了一种可配置的控制流检测算法CFCES。CFCES通过为每个程序块设计特殊格式的标签并在其中插装额外的控制流检测指令,以较少的开销有效地克服了已有算法的检测盲点。而且,CFCES在设计检测机制时引入了一种被称为“对等性”的不变量,通过对这种不变量进行检测,CFCES能够以极低的代价实现检错机制的自容错保护。此外,CFCES还通过分析函数的重要性和调节程序块的大小提供了可配置的优化方法,可以满足用户不同的时空开销和可靠性约束。CFCES优化方法的特点在于其可以提高CFCES的容错效率,且可以用于优化其它基于标签分析的控制流检测算法。3.瞬时故障不仅可能发生在处理器运算单元,也有可能出现在处理器存储单元中。被广泛用于保护片外存储的ECC技术并不适合用来保护片上存储结构,原因是这些存储结构本身已经占用了大部分芯片面积,并且访问频繁,采用ECC保护会带来大量的面积、性能和功耗开销。鉴于现有的容错研究中十分缺乏针对片上存储结构的合理保护方案,本文针对一种特殊的片上存储结构SPM提出了低代价的保护技术PPS。尽管用ECC对SPM进行完全保护的开销很高,但是对部分SPM存储进行ECC保护并进行合理分配仍是非常有价值的。PPS技术首先设计了基于部分ECC保护SPM的存储体系结构(被保护的比例可以根据不同应用的可靠性、性能等需求决定),然后对程序中的待分配变量进行脆弱性分析,并将SPM空间划分为“寄存器”,最后采取基于优先级的图着色方法将较为脆弱的变量优先分配到ECC保护的“寄存器”中。基于上述方法,PPS能够以较低的开销获得较高的存储可靠性。4.故障注入是一种有效且广为应用的可靠性分析方法。故障注入技术面临的困难是如何平衡故障模拟速度与精度的关系。由于已有的故障注入技术还不能有效地解决上述问题,本文提出了一种新的故障注入框架Smart Injector。Smart Injector首先基于程序分析从故障空间中删除等价类故障和结果确定型故障。等价类故障是指发生在相似的数据流或控制流上下文环境中的故障。这类故障往往会导致系统产生相同的反应,因此只需要将它们划为等价类并从中选取代表进行模拟注入即可,等价类中其它故障则可以从故障空间中删除。结果确定型故障是指那些通过程序分析就可以确定系统反应的故障。Smart Injector还首次开发了一种故障结果预测技术,通过预测故障产生的结果和判定结果的位置,可以在程序运行结束前提前判断故障注入的结果,从而减少单次模拟的时间开销。结合提出的故障删除技术和故障结果预测技术,Smart Injector以少量的精度损失极大地减少了故障注入的时间开销。