РСК представила «РСК Торнадо» и компоненты для HPC с охлаждением «горячей водой»

Интеграция Инфраструктура Электроника
мобильная версия
, Текст: Владимир Бахур

Группа компаний РСК представила на международной выставке-конференции ISC’17 свое сверхплотное, масштабируемое и энергоэффективное кластерное решение «РСК Торнадо» с прямым жидкостным охлаждением (все элементы вычислительного шкафа, включая коммутаторы высокоскоростной сети, охлаждаются жидкостью).

Этому решению РСК на базе 72-ядерного процессора Intel Xeon Phi 7290 принадлежит мировой рекорд вычислительной плотности для архитектуры x86 в 1,41 ПФЛОПС на шкаф или более 490 ТФЛОПС на кубический метр.

На стенде РСК был продемонстрирован полный набор компонент для создания современных вычислительных систем различного масштаба с 100% жидкостным охлаждением в режиме «горячая вода», включая высокопроизводительные вычислительные узлы «РСК Торнадо» на базе 72-ядерного процессора Intel Xeon Phi 7290 и серверной платы Intel S7200AP, процессоров Intel Xeon E5-2697А v4 и плат Intel Server Board S2600KPR(F), с установленными на них твердотельными дисками Intel SSD DC S3520 Series, Intel SSD DC P3520 Series с интерфейсом NVMe в высокоплотных форматах М.2 и новейшим Intel Optane SSD DC P4800X Series. 

Следующее поколение «РСК Торнадо» уже готово к поддержке ожидаемых к выпуску во второй половине этого года новейших серверных процессоров семейства Intel Xeon Processor Scalable Family (известных под кодовым названием Skylake-SP). 

Решение «РСК Торнадо» на базе серверных процессоров Intel обладает передовыми показателями компактности и вычислительной плотности (до 153

узлов в одном стандартном шкафу 80смx80смx42U), высоким уровнем энергоэффективности, а также обеспечивает возможность стабильной работы вычислительных узлов в режиме «горячая вода» при температуре  хладоносителя до +65 °С на входе в вычислительные узлы и коммутаторы. Работа в режиме «горячая вода» для данного решения позволяет применить круглогодичный режим free cooling (24x365), используя только сухие градирни, работающие при температуре окружающего воздуха до +50 °С, что, в свою очередь, позволяет полностью избавиться от фреонового контура и чиллеров. В результате среднегодовой показатель PUE системы, отражающий уровень эффективности использования электроэнергии, составляет менее чем 1,06. То есть на охлаждение расходуется менее 6% всего потребляемого электричества, что является выдающимся результатом для HPC-индустрии.

На ISC’17 специалисты РСК представили первый в мире на 100% охлаждаемый с помощью жидкости в режиме «горячая вода» 48-портовый коммутатор Intel Omni-Path Edge Switch 100 Series для построения высокоскоростных межузловых соединений (со скоростью неблокируемой коммутации до 100 Гбит/c на порт). Технология Intel Omni-Path Architecture (Intel OPA)  представляет собой комплексное решение для высокоскоростной коммутации и передачи данных, призванное помочь с минимальными затратами повысить производительность работы приложений как в HPC-кластерах начального уровня, так и в масштабных суперкомпьютерных проектах. 48-портовый коммутатор Intel OPA позволяет при одинаковом бюджете подключать на 26% больше серверов по сравнению с конкурирующими решениями, а также снизить энергопотребление до 60%, обеспечивая, таким образом, более энергоэффективную коммутирующую и системную инфраструктуру.

Доступность, отказоустойчивость и простота использования вычислительных систем, созданных на базе решений РСК для высокопроизводительных вычислений, также обеспечиваются благодаря передовой системе управления и мониторинга на базе интегрированного программного стека «РСК БазИС». Эта система является открытой и расширяемой платформой, созданной на основе ПО с открытым исходным кодом и микроагентной архитектуры. Она позволяет осуществлять управление как центром обработки данных в целом, так и отдельными его элементами, такими как: вычислительные узлы, коммутаторы, инфраструктурные компоненты, задачи и процессы. 

Все элементы комплекса (вычислительные узлы, блоки питания, модули гидрорегулирования и др.) имеют встроенный модуль управления, что обеспечивает широкие возможности для детальной телеметрии и гибкого управления. Конструктив шкафа позволяет заменять вычислительные узлы, блоки питания и гидрорегулирования (при условии применения резервирования) в режиме горячей замены без прерывания работоспособности комплекса.

Большинство компонентов системы (таких, как вычислительные узлы, блоки питания, сетевые и инфраструктурные компоненты и т.д.) являются программно-определяемыми, что позволяет существенно упростить и ускорить как начальное развертывание, так и обслуживание, и последующую модернизацию системы. Жидкостное охлаждение всех компонентов обеспечивает длительный срок их службы.

На стенде РСК на ISC’17 были представлены новые функциональные возможности «РСК БазИС» по мониторингу и управлению территориально распределенными центрами обработки данных (ЦОД). 

В этом году группа компаний РСК выполнила модернизацию вычислительных ресурсов Межведомственного суперкомпьютерного центра Российской академии наук (МСЦ РАН) и «Сибирского суперкомпьютерного центра» Сибирского отделения Российской академии наук (ССКЦ СО РАН) на базе Института вычислительной математики и математической геофизики. Оба проекта уникальны тем, что это первое в мире внедрение серверных вычислительных узлов с жидкостным охлаждением в режиме «горячая вода» на базе самых мощных 72-ядерных процессоров Intel Xeon Phi 7290, а также на основе 16-ядерных процессоров Intel Xeon E5-2697А v4. 

В ходе реализации этих проектов впервые в России и СНГ коммуникационные подсистемы двух кластерных комплексов были реализованы на основе технологии для высокоскоростных межузловых соединений Intel Omni-Path Architecture.

Общие ресурсы суперкомпьютерных систем в МСЦ РАН (Москва) и ССКЦ СО РАН (Новосибирск) будут использоваться как основа территориального распределенного вычислительного комплекса для решения наиболее актуальных задач в области фундаментальных и прикладных наук, включая такие передовые направления исследований как искусственный интеллект (AI, Artificial Intelligence), машинное и глубокое обучение (ML/DL – Machine Learning, Deep Learning), работа с большими данными (Big Data) и другие.

Суммарная пиковая производительность этих вычислительных комплексов теперь составляет около 1,1 ПФЛОПС. Высокая доступность, отказоустойчивость и простота использования вычислительных ресурсов в МСЦ РАН и ССКЦ СО РАН обеспечиваются благодаря передовой системе управления и мониторинга на базе интегрированного программного стека «РСК БазИС».