论文部分内容阅读
高通量计算系统由海量的计算节点、存储节点通过网络互连而成。由于规模巨大,系统的可靠性成为一个非常严重的问题,部件失效已经成为一种常态,系统设计必须考虑容错的问题。我们需要建立新的高通量计算系统的可靠性保障框架,来适应高通量计算中不同层次的可靠性需求,研究从芯片级到系统级跨层次的可靠计算技术。围绕该目标,该研究从高通量处理芯片的故障检测和容错设计方法,高通量计算系统的失效检测和恢复方法和从芯片级到系统级的故障自预测、自检测、自定位、自隔离和自愈合(5S)支撑环境3方面展开研究。截至2013年各项工作按照任务