建造一台超级计算机总是具有挑战性的,但创造业界首个百亿亿级(E级)系统更是会遇到完全出乎意料的遭遇,需要在硬件和软件方面进行大量工作。不幸的是,这种情况发生在了目前全球超算排名第一的橡树岭国家实验室(Oak Ridge National Laboratory)的Frontier超级计算机上,它几乎每天都会出现大量硬件故障。
(相关资料图)
ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统,使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连,功率为21兆瓦(2万千瓦)HPE 构建了系统并使用了Cray EX专为横向扩展应用设计的架构,主要用于超高速超级计算机。
虽然从纸面上看,Frontier超级计算机看起来特别好,而且机器系统的硬件部分已经交付,但似乎硬件方面的问题一直在阻止机器上线,并且无法提供给需要大约 1 FP64 ExaFLOPS 性能的研究人员使用。
橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHP的采访时表示:“我们正在解决硬件方面的问题,并确保我们理解具体是什么问题。为何会遇到如此规模的失败,导致这种规模的系统的平均故障间隔时间是几个小时,而不是几天。"
关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC的另一篇报道,有人说该系统在Slingshot互连上遇到了问题。此外,还有人表示,AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住,拥有更多流处理器和高时钟的X版本只向特定客户提供。
Whitt没有证实该系统遇到了 Instinct 或 Slingshot 的任何特定问题,但他强调该机器存在许多硬件问题。
“很多挑战都集中在这些 GPU 上,但这并不是我们所看到的大部分挑战。” OLCF的负责人说。"在零部件故障的常见罪魁祸首中,这是一个相当好的分布,因为GPU是一个很大的组成部分。我不认为在这一点上,我们对AMD的产品有太多担忧。"
到目前为止,橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构和 Slingshot 互连、AMD EPYC(霄龙)CPU 和 AMD Instinct 计算 GPU 的系统。例如,芬兰的 Lumi 超级计算机(Cray EX、EPYC Milan、Instinct MI250X 计算 GPU)提供了 550 PetaFLOPS 的峰值性能,并被正式列为世界第三强大的超级计算机。
只有时间才能证明最初承诺于 2022 年上线的 Frontier 超级计算机是否会在 2023 年开始提供给研究人员,因为它仍未正式部署。
原文:
https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure