Спецпроекты

AMD выпустила ускоритель HPC для научных исследований

Интеграция Инфраструктура Электроника

AMD анонсировала новый ускоритель AMD Instinct MI100 — самый быстрый в мире HPC GPU и первый серверный GPU x86, преодолевший барьер производительности 10 терафлопс (FP64). Поддерживаемая новыми вычислительными платформами Dell, Gigabyte, HPE и Supermicro, MI100 в сочетании с CPU AMD EPYC и открытой программной платформой ROCm 4.0 призвана ускорить новые открытия, опережая эпоху экзафлопсных вычислений.

Построенный на новой архитектуре AMD CDNA, графический процессор AMD Instinct MI100 обеспечивает новый класс ускоренных систем для HPC и AI в паре с процессорами AMD EPYC 2-го поколения. MI100 обеспечивает пиковую производительность до 11,5 терафлопс в FP64 для HPC и пиковую производительность до 46,1 терафлопс в FP32 Matrix для ИИ и машинного обучения. Благодаря новой технологии AMD Matrix Core, MI100 также обеспечивает почти 7-кратное увеличение теоретической пиковой производительности с плавающей запятой в FP16 для учебных нагрузок по ИИ по сравнению с предыдущим поколением ускорителей AMD.

«Сегодня AMD делает большой шаг вперед на пути к экзафлопным вычислениям, представляя AMD Instinct MI100 – самый быстрый в мире HPC GPU, – сказал Брэд МакКреди, корпоративный вице-президент по GPU для ЦОД и ускоренным процессорам в AMD. – Наш новейший ускоритель в сочетании с открытой программной платформой AMD ROCm предназначен для того, чтобы предоставить ученым и исследователям превосходную основу для их работы в области HPC».

Программное обеспечение AMD ROCm для разработчиков обеспечивает основу для экзафлопсных вычислений. Как набор инструментов с открытым исходным кодом, состоящий из компиляторов, API и библиотек программирования, ROCm используется разработчиками экзафлопсных программ для создания высокопроизводительных приложений. ROCm 4.0 был оптимизирован для обеспечения производительности для систем на базе MI100. ROCm 4.0 усовершенствовал компилятор до открытого исходного кода и унифицировал его для поддержки OpenMP 5.0 и HIP. Фреймворки PyTorch и Tensorflow, оптимизированные для ROCm 4.0, теперь могут достигать более высокой производительности с MI100. ROCm 4.0 является последним предложением для разработчиков приложений HPC, ML и AI, которое позволяет создавать высокопроизводительное портативное программное обеспечение.

«Мы получили ранний доступ к ускорителю MI100, и предварительные результаты очень обнадеживающие. Обычно мы наблюдаем значительный прирост производительности, до 2-3 раз по сравнению с другими GPU, – сказал Бронсон Мессер (Bronson Messer), директор по науке Oak Ridge Leadership Computing Facility. – Также важно понимать, какое влияние оказывает программное обеспечение на производительность. Тот факт, что открытая программная платформа ROCm и инструмент разработчика HIP имеют открытый исходный код и работают на различных платформах, это то, чем мы были абсолютно одержимы с тех пор, как мы выпустили самую первую гибридную систему на базе CPU/GPU».

Созданная для основы графических процессоров AMD в эпоху экзафлопности и являющаяся сердцем ускорителя MI100, архитектура AMD CDNA обеспечивает исключительную производительность и энергоэффективность.

Ведущую производительность FP64 и FP32 для рабочих нагрузок в HPC – обеспечивает лидирующую в отрасли пиковую производительность 11,5 TFLOPS для FP64 и 23,1 TFLOPS для FP32, позволяя ученым и исследователям во всем мире ускорить открытия в таких отраслях, как науки о жизни, энергетика, финансы, научные исследования, правительственный и оборонный комплекс, и т.д.

Совершенно новую технологию матричного ядра для HPC и ИИ – Сверхвысокая производительность для всего спектра матричных операций одинарной и смешанной точности, таких как FP32, FP16, bFloat16, Int8 и Int4, сконструированная для ускорения конвергенции HPC и ИИ.

Технологию AMD Infinity Fabric 2-го поколения – Instinct MI100 обеспечивает ~2x пиковую пропускную способность однорангового (P2P) входа/выхода по сравнению с PCIe® 4.0 с совокупной пропускной способностью до 340 ГБ/с на карту с тремя каналами AMD Infinity Fabric.4 В сервере MI100 GPU можно настроить с двумя полностью подключенными четырьмя кластерами графических процессоров, каждый из которых обеспечивает пропускную способность до 552 ГБ/с входа/выхода P2P для быстрого обмена данными.

Сверхбыструю память HBM2 – имеет 32 ГБ высокоскоростной памяти HBM2 с тактовой частотой 1,2 ГГц и обеспечивает ультравысокую пропускную способность памяти 1,23 ТБ/с для поддержки больших наборов данных и устранения узких мест при перемещении данных внутри и снаружи памяти.

Создан с использованием новейшей технологии PCIe Gen 4.0, обеспечивающей пиковую теоретическую пропускную способность до 64 ГБ/с при передаче данных с CPU на GPU.

До конца года ожидается выпуск ускорителей AMD Instinct MI100 в системах от основных OEM и ODM партнеров, в том числе Dell, Gigabyte, Hewlett Packard Enterprise (HPE), Supermicro.