论文部分内容阅读
可扩展和可容错是当前超级计算面临的两大关键技术。以千万亿次超级计算机的出现为标志,数值模拟已经进入一个全新的时代。一个高性能数值模拟程序可以使用数十万甚至数百十万个处理器核进行超大规模并行计算的时代。同时,系统故障发生概率随着节点数增加而放大。超级计算机的平均无故障时间,由于概率递增的客观规律,不可避免地下降。因此,高效使用千万亿次超级计算机进行工程与科学计算的前提是发展具有良好可扩展性和可容错性的数值模拟软件。 近年来新兴的无网格粒子方法形成对传统有限元等数值模拟技术的补充。无网格粒子方法无需固定节点连接关系,可以有效模拟固体材料大变形、在拉格朗日格式下统一求解固体、流体力学以及固体变形与流体流动耦合问题。在众多无网格粒子模拟算法中,物质点法(MPM)和光滑粒子流体动力学(SPH)方法是两类成熟、具有广泛适用性的无网格粒子方法。这类算法相对于传统有限元的优越性得到学术界的普遍认可。但是,由于诞生较晚,这类算法的大规模并行化和商业化起步较晚。 本论文研究上述两类粒子方法大规模并行计算的统一实现框架,解决使用千万亿次超级计算机所面临的高可扩展和可容错问题关键技术,发展一套千万亿次无网格粒子模拟系统,最终实现超大规模测试、工程计算和应用。 论文创新点如下: (1).研究并实现了SPH和MPM在千万亿次超级计算机上的高效并行化,首次在统一框架下研制了高性能数值模拟应用软件petaPar,并在当时排名世界第一的Titan千万亿次超级计算机上,通过了全系统26万核的高可扩展计算,并行效率达到96%; (2).发展了千万亿次计算的可容错关键技术,通过变进程重启动功能实现了petaPar无人值守自动容错计算,在同类算法的大规模数值软件中类似功能尚未见公开报道; (3).基于petaPar在“天河二号”和Titan千万亿次超级计算机上“接力”完成某核反应堆的3亿粒子规模的结构抗震反应分析和10万块体离散系统的非连续变形等具有挑战性的工程计算问题,对petaPar的并行计算能力进行了验证。