【摘 要】
:
高性能计算机的系统规模越来越大,系统可靠性问题越来越严重.针对系统低可靠性与大规模数值模拟需要长时间稳定运行之间的瓶颈,在系统上部署了多级检查点/容错技术.本文详细
【机 构】
:
北京应用物理与计算数学研究所 高性能计算中心,北京市 100094
论文部分内容阅读
高性能计算机的系统规模越来越大,系统可靠性问题越来越严重.针对系统低可靠性与大规模数值模拟需要长时间稳定运行之间的瓶颈,在系统上部署了多级检查点/容错技术.本文详细介绍了在实际系统上部署多级检查点/容错技术时遇到及解决的一些关键问题.实际数据表明,采用多级检查点/容错技术后,作业的平均执行时间可达数十小时以上,有效缩短了大规模并行作业模拟完成所需的时间,方便了用户.
其他文献
人生如登山,大凡登到山巅者有两种人:一种到顶峰只是为了欣赏一下山顶上的风景;另一种则是举目远眺,继续寻找下一个攀越的目标。10年前,许多人循着《青春驿站》、《都市寻梦
1966年1月中旬春节期间,朱老总参加上海会议后辗转到达杭州。见面后,我发现他常常独自一人叹气,便关心地问: “你有什么不好过?” “没有什么。”他说得有气无力。 “不会没
今年七八月间,中央电视台在黄金时段播出的46集大型连续电视剧《太平天国》,展现了中国历史上规模最大、也是最后一次农民起义波澜壮阔的斗争风貌。剧中有好几场戏演绎女状
提出了一种基于MIC 的kd 树快速构建算法,实现了kd 树在CPU-MIC 异构系统上的快速构建。在CPU与MIC 之间采用任务并行,在MIC 上采用线程级并行,同时针对MIC 体系结构进行了
煮沸是杀灭水中兰氏贾弟鞭毛虫的最可靠的方法,另外实验资料提示,高氯(余氯在5~9ppm)也可杀灭包囊体。但一些因素如pH、混浊度、温度和作用时间均可影响
Boiling is the mos
在对当前垃圾邮件过滤方法进行研究和分析的基础上,本文将社交网络的概念用于垃圾邮件识别,并提出了一种将社会计算和机器学习相结合的垃圾邮件过滤方法,以减少垃圾邮件的误
采用实验分类学和数量分类学相结合的方法,将来自北纬22°~45°、东经77°~127°的73个大蒜品种分为3大生态型。不同生态型的主要区别性状是秋、春播的叶片数差比,它反映了鳞芽花芽分化对低温
当前虚拟桌面实施方案中,终端用户对3D图形处理能力越来越高的要求与虚拟机GPU的3D图形处理能力之间的矛盾逐渐凸显.为解决上述问题,对GPU虚拟化的典型实施方案进行了研究.提
常运动的人难免会遇到运动损伤的情况,尤其是髋关节部位,损伤率最高.出现损伤如果不及时治疗的话,很容易留下后遗症,让自己的身体健康受到影响.以往,大家对髋关节的损伤,普遍
针对未来E级计算存在的诸多困难和挑战,本文提出了将指令集扩展技术用于解决未来E级高性能计算系统的构建,并对指令集扩展技术和可扩展处理器架构展开深入研究.最后,本文提出