每日看点！大量硬件故障，无法上线！美国世界第一超算遇到大麻烦

来源：EETOP 发布时间：2022-10-09 15:49:10

建造一台超级计算机总是具有挑战性的，但创造业界首个百亿亿级（E级）系统更是会遇到完全出乎意料的遭遇，需要在硬件和软件方面进行大量工作。不幸的是，这种情况发生在了目前全球超算排名第一的橡树岭国家实验室(Oak Ridge National Laboratory)的Frontier超级计算机上，它几乎每天都会出现大量硬件故障。

(相关资料图)

ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统，使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连，功率为21兆瓦（2万千瓦）HPE 构建了系统并使用了Cray EX专为横向扩展应用设计的架构，主要用于超高速超级计算机。

虽然从纸面上看，Frontier超级计算机看起来特别好，而且机器系统的硬件部分已经交付，但似乎硬件方面的问题一直在阻止机器上线，并且无法提供给需要大约 1 FP64 ExaFLOPS 性能的研究人员使用。

橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHP的采访时表示：“我们正在解决硬件方面的问题，并确保我们理解具体是什么问题。为何会遇到如此规模的失败，导致这种规模的系统的平均故障间隔时间是几个小时，而不是几天。"

关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC的另一篇报道，有人说该系统在Slingshot互连上遇到了问题。此外，还有人表示，AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住，拥有更多流处理器和高时钟的X版本只向特定客户提供。

Whitt没有证实该系统遇到了 Instinct 或 Slingshot 的任何特定问题，但他强调该机器存在许多硬件问题。

“很多挑战都集中在这些 GPU 上，但这并不是我们所看到的大部分挑战。” OLCF的负责人说。"在零部件故障的常见罪魁祸首中，这是一个相当好的分布，因为GPU是一个很大的组成部分。我不认为在这一点上，我们对AMD的产品有太多担忧。"

到目前为止，橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构和 Slingshot 互连、AMD EPYC（霄龙）CPU 和 AMD Instinct 计算 GPU 的系统。例如，芬兰的 Lumi 超级计算机（Cray EX、EPYC Milan、Instinct MI250X 计算 GPU）提供了 550 PetaFLOPS 的峰值性能，并被正式列为世界第三强大的超级计算机。

只有时间才能证明最初承诺于 2022 年上线的 Frontier 超级计算机是否会在 2023 年开始提供给研究人员，因为它仍未正式部署。

原文：

https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure

标签：超级计算机硬件故障研究人员

分享到：QQ空间新浪微博腾讯微博人人网微信

上一篇：

下一篇：