20 Ноября 2020 17:43 20 Ноя 2020 17:43 |

AMD выпустила ускоритель HPC для научных исследований

AMD анонсировала новый ускоритель AMD Instinct MI100 — самый быстрый в мире HPC GPU и первый серверный GPU x86, преодолевший барьер производительности 10 терафлопс (FP64). Поддерживаемая новыми вычислительными платформами Dell, Gigabyte, HPE и Supermicro, MI100 в сочетании с CPU AMD EPYC и открытой программной платформой ROCm 4.0 призвана ускорить новые открытия, опережая эпоху экзафлопсных вычислений.

Построенный на новой архитектуре AMD CDNA, графический процессор AMD Instinct MI100 обеспечивает новый класс ускоренных систем для HPC и AI в паре с процессорами AMD EPYC 2-го поколения. MI100 обеспечивает пиковую производительность до 11,5 терафлопс в FP64 для HPC и пиковую производительность до 46,1 терафлопс в FP32 Matrix для ИИ и машинного обучения. Благодаря новой технологии AMD Matrix Core, MI100 также обеспечивает почти 7-кратное увеличение теоретической пиковой производительности с плавающей запятой в FP16 для учебных нагрузок по ИИ по сравнению с предыдущим поколением ускорителей AMD.

«Сегодня AMD делает большой шаг вперед на пути к экзафлопным вычислениям, представляя AMD Instinct MI100 – самый быстрый в мире HPC GPU, – сказал Брэд МакКреди, корпоративный вице-президент по GPU для ЦОД и ускоренным процессорам в AMD. – Наш новейший ускоритель в сочетании с открытой программной платформой AMD ROCm предназначен для того, чтобы предоставить ученым и исследователям превосходную основу для их работы в области HPC».

Программное обеспечение AMD ROCm для разработчиков обеспечивает основу для экзафлопсных вычислений. Как набор инструментов с открытым исходным кодом, состоящий из компиляторов, API и библиотек программирования, ROCm используется разработчиками экзафлопсных программ для создания высокопроизводительных приложений. ROCm 4.0 был оптимизирован для обеспечения производительности для систем на базе MI100. ROCm 4.0 усовершенствовал компилятор до открытого исходного кода и унифицировал его для поддержки OpenMP 5.0 и HIP. Фреймворки PyTorch и Tensorflow, оптимизированные для ROCm 4.0, теперь могут достигать более высокой производительности с MI100. ROCm 4.0 является последним предложением для разработчиков приложений HPC, ML и AI, которое позволяет создавать высокопроизводительное портативное программное обеспечение.

«Мы получили ранний доступ к ускорителю MI100, и предварительные результаты очень обнадеживающие. Обычно мы наблюдаем значительный прирост производительности, до 2-3 раз по сравнению с другими GPU, – сказал Бронсон Мессер (Bronson Messer), директор по науке Oak Ridge Leadership Computing Facility. – Также важно понимать, какое влияние оказывает программное обеспечение на производительность. Тот факт, что открытая программная платформа ROCm и инструмент разработчика HIP имеют открытый исходный код и работают на различных платформах, это то, чем мы были абсолютно одержимы с тех пор, как мы выпустили самую первую гибридную систему на базе CPU/GPU».

Созданная для основы графических процессоров AMD в эпоху экзафлопности и являющаяся сердцем ускорителя MI100, архитектура AMD CDNA обеспечивает исключительную производительность и энергоэффективность.

Ведущую производительность FP64 и FP32 для рабочих нагрузок в HPC – обеспечивает лидирующую в отрасли пиковую производительность 11,5 TFLOPS для FP64 и 23,1 TFLOPS для FP32, позволяя ученым и исследователям во всем мире ускорить открытия в таких отраслях, как науки о жизни, энергетика, финансы, научные исследования, правительственный и оборонный комплекс, и т.д.

Совершенно новую технологию матричного ядра для HPC и ИИ – Сверхвысокая производительность для всего спектра матричных операций одинарной и смешанной точности, таких как FP32, FP16, bFloat16, Int8 и Int4, сконструированная для ускорения конвергенции HPC и ИИ.

Никита Лопатин, Setl Group: Как строители контролируют качество с помощью лазерного сканирования

Цифровизация

Технологию AMD Infinity Fabric 2-го поколения – Instinct MI100 обеспечивает ~2x пиковую пропускную способность однорангового (P2P) входа/выхода по сравнению с PCIe® 4.0 с совокупной пропускной способностью до 340 ГБ/с на карту с тремя каналами AMD Infinity Fabric.4 В сервере MI100 GPU можно настроить с двумя полностью подключенными четырьмя кластерами графических процессоров, каждый из которых обеспечивает пропускную способность до 552 ГБ/с входа/выхода P2P для быстрого обмена данными.

Сверхбыструю память HBM2 – имеет 32 ГБ высокоскоростной памяти HBM2 с тактовой частотой 1,2 ГГц и обеспечивает ультравысокую пропускную способность памяти 1,23 ТБ/с для поддержки больших наборов данных и устранения узких мест при перемещении данных внутри и снаружи памяти.

Создан с использованием новейшей технологии PCIe Gen 4.0, обеспечивающей пиковую теоретическую пропускную способность до 64 ГБ/с при передаче данных с CPU на GPU.

До конца года ожидается выпуск ускорителей AMD Instinct MI100 в системах от основных OEM и ODM партнеров, в том числе Dell, Gigabyte, Hewlett Packard Enterprise (HPE), Supermicro.

Подобрать оптимальный тариф на IaaS на ИТ-маркетплейсе CNewsMarket среди десятков поставщиков

Владимир Бахур

Подписаться на новости

Короткая ссылка

AMD выпустила ускоритель HPC для научных исследований

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Толк Шоу

CNewsMarket

Онлайн-бухгалтерия

VPS

DRaaS

BaaS

Техника

Лучшие умные очистители воздуха в 2025 году: выбор ZOOM

Обзор HUAWEI FreeBuds 7i: качественный звук и отличное шумоподавление

Обзор Dreame L50 Ultra: моющий робот-пылесос нового уровня

Наука

Исследование древнего кладбища перевернуло устоявшиеся представления о жизни в каменном веке

Если квантовые вычисления отвечают на неразрешимые вопросы, то как понять, что ответы верные?

Космические «замочные скважины» — отсроченная катастрофа, через них астероиды могут вернуться на Землю

Топ-5 российских платформ виртуализации

Первая карта заводов компьютерной техники в России

Первая карта заводов компьютерной техники в России

Обзор: Платформы виртуализации 2025

Российским ритейлерам
стоило бы поучиться у коллег из Китая

С новым кодом:
как будет работать
универсальный QR-код для оплаты

AMD выпустила ускоритель HPC для научных исследований

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Толк Шоу

CNewsMarket

Онлайн-бухгалтерия

VPS

DRaaS

BaaS

Техника

Лучшие умные очистители воздуха в 2025 году: выбор ZOOM

Обзор HUAWEI FreeBuds 7i: качественный звук и отличное шумоподавление

Обзор Dreame L50 Ultra: моющий робот-пылесос нового уровня

Наука

Исследование древнего кладбища перевернуло устоявшиеся представления о жизни в каменном веке

Если квантовые вычисления отвечают на неразрешимые вопросы, то как понять, что ответы верные?

Космические «замочные скважины» — отсроченная катастрофа, через них астероиды могут вернуться на Землю

Топ-5 российских платформ виртуализации

Первая карта заводов компьютерной техники в России

Первая карта заводов компьютерной техники в России

Обзор: Платформы виртуализации 2025

Российским ритейлерамстоило бы поучиться у коллег из Китая

С новым кодом: как будет работать универсальный QR-код для оплаты

Российским ритейлерам
стоило бы поучиться у коллег из Китая

С новым кодом:
как будет работать
универсальный QR-код для оплаты