Разделы

Техника

Самый мощный суперкомпьютер в мире ломается ежедневно. Никто не знает, почему

Frontier, первый суперкомпьютер, показавший производительность свыше 1 экзафлопс, постоянно сбоит. Он может ломаться по нескольку раз на дню, и никто не знает, что мешает ему работать стабильно. В основе Frontier лежат CPU и ускорители AMD, но они используются во многих других современных суперкомпьютерах, нареканий к работе которых нет.

Мощный, но глючный

Американский суперкомпьютер Frontier, первый в мире сумевший преодолеть барьер производительности в 1 экзафлопс, оказался невероятно глючным. Как пишет портал Tom’s Hardware, не проходит ни дня, чтобы в его работе не произошел какой-нибудь сбой.

Более того, в течение дня компьютер сбоит так часто, что его владельцы уже сбились со счета. По их словам, ежедневных поломок не просто много – их множество.

Frontier – это не только самый производительный суперкомпьютер в мире, согласно рейтингу Top500, но и один из самых современных. Он был находится в тестовом режиме эксплуатации с 2022 г. и в настоящее время размещается на территории Ок-Риджской национальной лаборатории, размещенной в США.

frontier600.jpg
Поиски первопричины сбоев Frontier идут полным ходом

Frontier построен на платформе HPE Cray EX235a. Его вычислительный центр целиком состоит из «железа» компании AMD – одного из двух производителей х86-процессоров в мире. Она прекратила свои поставки в Россию в марте 2022 г.

Frontier сочетает в себе 9408 оптимизированных 64-ядерных процессоров AMD Epyc Milan с частотой 2 ГГц и 37632 ускорителя AMD Instinct MI250x. Также у него есть фирменный интерконнект HPE Slingshot 11-го поколения.

Что происходит

На момент выхода материала не было доподлинно известно, какие именно из составных компонентов Frontier доставляют ученым из Ок-Риджской национальной лаборатории больше всего проблем. Поначалу было известно лишь о проблемах в работе интерконнекта, а позже появилась информация, что глючить начали еще и ускорители AMD Instinct MI250X. Что касается процессоров Epyc в составе суперкомпьютеров, то нареканий к ним пока нет, по крайней мере, официально.

Как пишет Tom’s Hardware со ссылкой на представителей Ок-Риджской национальной лаборатории, едва ли не каждый из компонентов Frontier доставляет ученым неприятности и сбоит во время работы. По из словам, проблемы действительно связаны с ускорителями Instinct MI250X, но далеко не только с ними. Напротив, продукция AMD в этом плане – не лидер.

AMD хранит гробовое молчание и не комментирует происходящее с Frontier. Однако в ее пользу говорит тот факт, что в мире существует еще несколько суперкомпьютеров с похожей компоновкой.

frontier601.jpg
Создатели Frontier могли сверх меры усложнить внутреннюю компоновку суперкомпьютера

Например, платформу HPE Cray EX с интерконнектом Slingshot, процессорами Epyc и ускорителями Instinct можно найти в составе финского суперкомпьютера Lumi (состав –Cray EX, Epyc Milan, Instinct MI250X). Это третий по производительности суперкомпьютер в мире, и о сбоях в его работе пока ничего не известно.

8 задач, чтобы перезапустить инженерную школу в России
импортонезависимость

Эксперты Tom’s Hardware считают, что причина сбоев в работе Frontier может скрываться вовсе не в электронной составляющей, а непосредственно в его конструкции. По предварительным подсчетам, Frontier представляет собой очень дорогой конструктор из 60 млн различных деталей.

Да и в целом рейтинг суперкомпьютеров Top500 образца 2022 г. (обновляется дважды год – в июне и ноябре) состоит из 94 систем на базе компонентов AMD. Это приблизительно на 95% больше в сравнении с рейтингом за июль 2021 г. и только Frontier выделился ненадежностью аппаратной части.

Что умеет суперкомпьютер

В сумме суперкомпьютер Frontier содержит более 8,73 млн вычислительных ядер и потребляет свыше 21 МВт энергии. Емкость его хранилища составляет 700 ПБ, а суммарная производительность равна 1,1 экзафлопс. В пике этот показатель превышает 1,6 экзафлопс. Другими словами, компьютер может выполнять более 1 (1018) квинтиллиона операций с плавающей запятой каждую секунду.

Краткий обзор Frontier

Frontier представляет собой 74 отдельные стойки весом более 3,6 тонны каждая, соединенные между собой сетевыми кабелями длиной в общей сложности 144 км. Для отвода тепла используется жидкостная система охлаждения, через которую ежеминутно прокачивается свыше 22 тыс. литров воды. Такую производительность обеспечивают четыре насоса мощностью 350 л.с. каждый.

У специалистов Ок-Риджской национальной лаборатории еще есть время на починку Frontier. Полноценный запуск суперкомпьютера, первоначально запланированный на 2022 г., перенесен на начало 2023 г.

Евгений Черкесов