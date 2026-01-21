CNewsMarket подготовил первый в России рейтинг российских платформ Kubernetes, настроенных для работы с моделями искусственного интеллекта. Инструментарий Kubernetes предоставляет гибкие механизмы для управления, мониторинга и масштабирования нагрузок, возникающих при решении задач машинного обучения. В рейтинге учитываются возможности платформ для эффективного распределения вычислительных ресурсов и обеспечения безопасности разработки.
Платформы Kubernetes предоставляют инструментарий, необходимый для оркестрации задач, связанных с распределением нагрузок (прежде всего на процессоры, видео- и оперативную память), неизбежно возникающих в ходе работы по созданию и обучению моделей искусственного интеллекта.
Оптимизация плавающих ML-нагрузок заключается в использовании особых механизмов распределения ресурсов и перераспределения задач, например, с применением параметров запросов и лимитов. Изменяющиеся нагрузки также налагают более строгие требования к необходимости масштабирования ресурсов — для этого на Kubernetes-платформах предусмотрены технологии автоматического горизонтального (Horizontal Pod Autoscaler, HPA) и вертикального автомасштабирования (Vertical Pod Autoscaler, VPA). Эти технологии позволяют выделять свободные ресурсы для контейнеров в зависимости от текущей загрузки CPU/GPU и памяти.
Интегральный рейтинг анализируемых платформ включает в себя более 30 критериев, отвечающих за оркестрацию ИИ-приложений, мониторинг состояния ML-нагрузок, своевременное реагирование на критические инциденты, то есть, в конечном итоге, за максимально производительное использование весьма дорогостоящих ресурсов: GPU, CPU и оперативной памяти. Также в составе оцениваемых параметров учитываются критерии, характеризующие безопасность и отказоустойчивость Kubernetes-платформ.
Результаты рейтинга
Для каждого параметра, входящего в состав критериев, разработана балльная система оценки. Участники рейтинга ранжируются по сумме набранных баллов: чем больше баллов, тем выше место. Подробности в разделе «Правила начисления баллов».
Сравнение решений проводилось по уникальной методике, разработанной аналитиками CNewsMarket и учитывающей следующие критерии:
1. Функциональность:
- Поддержка GPU-ускорителей в составе нод кластера
- Автоматическое обнаружение нод с GPU в сети, добавление их в кластер и управление их драйверами
- Поддержка технологии NVLink
- Наличие функционала управления статическими и динамическими профилями MIG
- Встроенный функционал предоставления GPU ресурсов задачам через очереди с гарантированным выполнением
- Возможность динамически перераспределять ноды с GPU между кластерами Kubernetes
- Автоматическое масштабирование кластеров с GPU под ИИ/ML-нагрузки на основе значимых бизнес метрик
- Возможность гибкого перераспределения ресурсов GPU кластера (время, память, мультипроцессинг) между задачами
- Наличие аналитического dashboard для контроля и мониторинга потребления GPU ресурсов ML/ИИ-нагрузками
- Встроенный алертинг по аномалиям выполняемых задач обучения или inference
- Встроенный в платформу low-code конструктор ИИ агентов и оркестрируемых ИИ приложений
- Набор low-code шаблонов и элементов, стандартизирующих и ускоряющих обучение/разработку ИИ-приложений
- Встроенный функционал создания умных систем на базе технологии RAG и векторных баз данных
- Встроенная поддержка одновременного автоматического использования spot-инстансов и постоянных узлов в рамках одного кластера доступная «из коробки»
- Разработка, внедрение и эксплуатация ML-моделей в едином интерфейсе
- Встроенные в платформу инструменты
- Встроенные в платформу notebook-серверы
- Встроенные в платформу операторы
- Поддерживаемые системы распределенного обучения
- Совместимость с российскими ОС
- Количество реализованных ИИ/ML проектов на базе платформы
2. Отказоустойчивость и безопасность:
- Поддержка GPU и всей функциональности на отечественных ОС с классом защищенности 1
- Поддержка изоляции и мультитенантности GPU-ресурсов на уровне namespace и projects
- Автоматическое резервное копирование и восстановление состояния обучаемых моделей и чекпойнтов
- Возможность работы в закрытом контуре
- Платформа в реестре российского ПО
Наиболее эффективным решением для оркестрации задач машинного обучения стала платформа «Боцман» («Группа Астра»). «Боцман» достаточно универсален и подходит для разных архитектур, локальных серверов, облаков, а также гибридных вариантов, таким образом снижаются риски привязки к одному поставщику услуг. Доступен.набор инструментов для гибкого динамического масштабирования, интеграции с GitLab CI, Jenkins и GitHub Actions позволяют автоматизировать сборку, тестирование и развертывание моделей и ИИ-приложений. Также следует отметить развитую экосистему специализированных решений и фреймворков, которые упрощают развертывание, мониторинг и обслуживание ML-систем, таких как Kubeflow, TensorFlow Serving и др.
Второе место — у платформы Nova Container Platform AI (Orion soft). Nova AI позволяет упростить управление благодаря унифицированному кластеру, подходящему для всех ИИ- и ML-задач и обеспечивает стабильную и предсказуемую работу инфраструктуры. Платформа может быть развернута как на bare-metal, так и в виртуализированной среде (включая отечественную платформу виртуализации zVirt), есть поддержка российских ОС (Astra Linux и «Ред ОС»). К важным преимуществам платформы относится преднастроенное рабочее окружение на базе таких инструментов, как JupyterHub, MLflow, Airflow и MinIO и соблюдение требований по ИБ и комплаенсу, обеспечение защиты токенов и данных.
Третье место — у Platform V DropApp («Сбербанк Технологии») — решение полного цикла для управления кластерами Kubernetes и контейнерными нагрузками. Платформа несет функциональность для построения отказоустойчивого корпоративного on-prem или облачного инференса LLM. Также внутри платформы интегрирован AI инструмент для упрощения взаимодействия с платформой (AI-SRE) и снижения порога входа. Platform V DropApp внедрена в СберБизнесе где отвечает за полное развертывание всей бизнес-структуры в приложении, позволяя при повышении нагрузки автоматически формировать новые кластеры, обеспечивая, таким образом, отказоустойчивость для большого количества онлайн-сервисов. Среди достоинств решения — наличие предустановленных и настроенных компонентов, в том числе ИИ-ассистента для обеспечения бесперебойной работы высоконагруженных сервисов.
Правила начисления баллов
Рейтинг построен по балльной системе. Каждому решению начислены баллы в соответствии с таблицей. Чем выше итоговая сумма баллов, тем выше место в рейтинге.
