Разделы

ПО Софт Цифровизация Внедрения Инфраструктура

Nvidia всех уделала с невероятным отрывом. Опубликованы сравнительные тесты обучения нейросетей Google, Intel и других

При тестировании производительности систем для обучения нейросетей MLPerf Training системы на базе процессоров Nvidia показали наилучшие результаты. Intel и Google отстают более чем значительно.

Олимпийские игры машин

Опубликованы результаты очередного бенчмарка MLPerf Training, разработанного консорциумом ML (Machine Learning или машинное обучение) Commons. С его помощью составляется рейтинг наиболее производительных систем для формирования моделей машинного обучения, в том числе наиболее масштабных. Как раз новая версия бенчмарка, выпущенная в 2023 г., добавила тест производительности при обучении LLM-моделей (крупных языковых моделей), в частности, GPT-3.

Лидирующие позиции заняли машины, построенные на основе технологий Nvidia и Intel. К ним также присоединился Google с собственными разработками, однако до двух лидеров ему еще очень далеко.

Все три компании показали чрезвычайно производительные системы. Например, на вершине оказался суперкомпьютер, насчитывающий более 10 тыс. GPU-процессоров (графический процессор) Nvidia - это самая большая система, когда-либо участвовавшая в таком тестировании.

В общей сложности 19 компаний и институтов представили свои собственные результаты тестирования (в количестве более 200), что в целом показало 2,8-кратный рост производительности тестируемых систем в течение последних пяти месяцев, и 49-кратный прирост с тех пор, как пять лет назад возник сам бенчмарк MLPerf.

Nvidia доминирует в этих результатах. Самые производительные системы построены на основе ее GPU H100.

Монстр по кличке Eos

Что касается топовой системы, то это ИИ (искусственный интеллект)-суперкомпьютер Nvidia Eos, в котором насчитываются 10752 GPU.

При полной загрузке всех ее процессоров обучением модели GPT-3, система управилась с задачей за 4 минуты. Производительность Eos оценивается в 42,6 квинтиллионов операций с плавающей запятой в секунду - экзафлопс. Процессоры объединены гиперпроизводительной шиной Quantum-2 Infiniband, пропускающей 1,1 квадриллион байтов в секунду.

Azure, облачное подразделение Microsoft, тестировало систему точно такого же размера - и тоже на базе процессоров Nvidia, и получила результаты, лишь на несколько секунд уступающие Eos.

Кстати, именно этот суперкомпьютер отвечает за функционирование виртуального программиста GitHub CoPilot и чатбота OpenAI ChatGPT.

Что касается Eos, то бенчмарк, запущенный на нем, собственно, предполагал формирование лишь части модели GPT-3, поскольку в MLPerf сочли более важным оставить как можно большему числу компаний возможность пройти тестирование.

Тест подразумевает, что обучение модели продолжается до того ключевого момента, когда становится ясно, что модель будет сформирована на должном уровне качества при наличии у нее достаточного количества времени.

Для Eos таким достаточным количеством времени стали бы не четыре минуты, а восемь дней.

Александр Бабкин, Газпромбанк: Сейчас иностранные ИБ-решения в Газпромбанке замещены на 65%
безопасность

У менее крупнокалиберных систем на основе тех же технологий на полное выполнение задачи ушли бы месяцы.

Что касается Intel, то в рейтинге - системы на базе его ИИ-ускорителей - процессоров Gaudi 2 и «неускоренные» варианты на базе чипов Xeon CPU.

Вопрос на 8 бит

С прошлого теста Intel реализовал в Gaudi 2 поддержку 8-битных операций с плавающей запятой (FP8). Использование менее точных значений - один из ключевых факторов, позволивших наращивать производительность GPU в течение последних 10 лет.

При этом использование FP8 при тренировке GPT-3 и других преобразующих нейросетей - в той их части, где сниженная точность вычислений не повлияет на общую точность вывода модели, продемонстрировала свою значимость при использовании процессоров Nvidia H100. Теперь благодаря им растет и производительность Gaudi 2. Как заявил операционный директор Intel Habana Labs Эйтан Медина (Eitan Medina), рост производительности даже превысил ожидания: время обучения модели в кластере с 384 ИИ-ускорителями снизилось на 103%, хотя ожидали порядка 90%.

В результате по общему зачету система на базе Gaudi 2 втрое уступает системе на базе Nvidia H100 в расчете на один чип и втрое же обгоняет систему Google на базе разработанных в компании процессоров - облачных ускорителей TPUv5e, используемых в собственной инфраструктуре компании.

В ходе тестирования на производительность при ИИ-генерации изображений Gaudi 2 вдвое отставал от H100.

Фарид Нигматуллин, «ВидеоМатрикс»: У видеоаналитики в промышленности большие возможности
Цифровизация

Intel Gaudi 2 значительно дешевле, чем Nvidia H100, поэтому при соотношении стоимости и производительности этот процессор вполне может конкурировать с продуктом рыночного лидера. Сейчас в Intel разрабатывают третью итерацию Gaudi, которая будет выпускаться по тому же техпроцессу, что и H100. Ожидается, что Gaudi 3 поступит на рынок уже в 2024 г.

Технический директор компании SEQ Алексей Водясов полагает, что к настоящему времени осталось немного способов нарастить производительность традиционных процессоров, будь то CPU (центральный процессор) или GPU (графический процессор). «Использование FP8, возможно, один из последних таких факторов, серьёзно влияющих на производительность, далее остаётся только совершенствовать техпроцессы и наращивать количество чипов в каждой конкретной системе», - продолжает мысль Алексей Водясов. По его мнению, все может измениться, когда появятся практические квантовые процессоры, но это вопрос непрогнозируемого будущего. «Сейчас же, пока не стихает хайп вокруг генеративных ИИ, вендоры будут изо всех сил стараться выжимать максимум из существующих технологий, пытаясь обогнать конкурирующие предложения хотя бы на несколько часов», - подытожил Алексей Водясов.

Intel также представил результаты тестирования систем, которые построены на базе только более-менее традиционных его процессоров (CPU) Xeon. В зависимости от назначения теста результаты разнятся на несколько часов. При этом Intel показал, что 4-узловая система на базе процессоров Xeon с движком AMX могут управиться с тонкой настройкой генератора изображений Stable Diffusion менее чем за пять минут.

Такая подстройка подразумевает, что нейросеть уже обучена в целом, но ее надо перенастроить для выполнения конкретной задачи.

Роман Георгиев