«Сбер» выложил в открытый доступ линейку передовых российских нейросетевых моделей
«Сбер» объявил об открытии весов двух новый флагманских MoE-моделей в линейке GigaChat — Ultra-Preview и Lightning — созданных с нуля для русскоязычных задач, а также новое поколение открытых моделей GigaAM-v3 для распознавания речи с пунктуацией и нормализацией.
Кроме того, стали доступны все модели генерации изображений и видео новой линейки Kandinsky 5.0 — Video Pro, Video Lite и Image Lite — собственные продвинутые нейросети, нативно понимающие промпты на русском языке, знающие русскую культуру и умеющие писать кириллический текст на изображениях и видео, а также модели для сжатия визуальных данных K-VAE 1.0, необходимые для обучения моделей генерации визуального контента и являющиеся лучшими в мире среди открытых аналогов. Код и веса этих всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка, сказал: «Для создания настоящего ИИ мирового уровня нужны две вещи: колоссальные ресурсы и, что еще важнее, – R&D команды мирового уровня. У «Сбера» есть и то, и другое. Но наша принципиальная позиция – не строить закрытую технологию. Наша стратегия – стать открытым фундаментом для всей страны. Именно поэтому мы открываем веса наших моделей. Это ключевой момент. Когда мы отдаем модели, любая компания в России, от банка до стартапа, может установить их внутри своего закрытого контура и дообучить на своих чувствительных данных, никому их не показывая. Это и есть настоящий технологический суверенитет, когда ИИ есть у всей страны, и он становится основой для трансформаций бизнеса и стимула роста экономики. Хочу также отметить, что модель Ultra будет скоро доступна и для корпоративных клиентов, оптимизированная по стоимости владения для размещения в периметре компании».
Модели GigaChat встречают пополнение в лице GigaChat Ultra Preview и GigaChat Lightning. GigaChat Ultra Preview — самая мощная и большая модель в линейке GigaChat. Это первая в России модель подобного масштаба, обучение которой всё ещё продолжается, но уже на текущем этапе она превосходит как DeepSeek V3.1 по общим метрикам качества на русском языке (лидирует в бенчмарке MERA), так и предыдущую флагманскую модель — GigaChat Max 2.
GigaChat Ultra-Preview выпускается под открытой лицензией, что позволит дообучать модель локально — например, в закрытых корпоративных средах, где критически важны полный контроль над приватными данными, соответствие требованиям информационной безопасности и максимальное качество. Несмотря на большой размер, модель остаётся достаточно быстрой — быстрее по скорости GigaChat 2 Max.
GigaChat Lightning, напротив, — самая компактная и быстрая MoE-модель в линейке, оптимизированная для локального запуска на ноутбуке и поддержки быстрых продуктовых итераций.
По качеству она конкурирует с мировыми лидерами open-source в своей категории: превосходит Qwen3-4B в русскоязычных задачах и не уступает ей в диалоге, анализе документов и решении прикладных бизнес-задач.
Как и в случае с GigaChat Ultra, «Сбер» публикует не только веса модели, но и технологию ускоренного инференса: Lightning не только обгоняет конкурентов в своём классе — она работает почти так же быстро, как и Qwen3-1.7B, несмотря на то, что превосходит её в размере в 6 раз.
Обе модели эффективно интегрируют систему использования сторонних инструментов, из которых особенно выделяются два ключевых: код и память.
Код — это инструмент для выполнения, анализа и визуализации программных операций: он позволяет запускать фрагменты кода, строить графики, проводить расчёты и проверять гипотезы в реальном времени.
Память — система для персонализированного общения, запоминающая важные детали: цели, предпочтения и историю обсуждений. Модели могут давать пользователю персонализированные советы и корректировать информацию по ходу диалога. При этом устаревшая или чувствительная информация удаляется, а пользователь может вручную корректировать память моделей.
GigaAM-v3 — открытый набор из пяти моделей для автоматического распознавания речи на русском языке (ASR), которые доступны для промышленного применения и коммерческого использования. GigaAM-v3 ориентирован на голосовые ассистенты, контакт-центры и аналитику звонков, агрегаторы голосовых сообщений и мультимодальные агенты.
В новой версии акустических моделей GigaAM масштаб предобучения увеличен с 50 тыс. до 700 тыс. часов аудио, а в обучение добавлены новые домены: кол-центр, музыкальные запросы, речь с особенностями, спонтанная речь — что значительно улучшило качество в этих сценариях.
На основе уникальной фундаментальной модели GigaAM-v3 можно сделать любые речевые технологии: в «Сбере» она уже используется в распознавании речи, синтезе речи, а также позволяет GigaChat работать с видео и аудио.
Линейка Kandinsky 5.0 включает в себя модель Image Lite, которая может генерировать изображения по тексту и редактировать их, а также две версии моделей генерации видео: быструю модель Video Lite и мощную — Video Pro, которые могут генерировать видео по текстовому описанию и «оживлять» изображения.
Универсальная модель Kandinsky 5.0 Image Lite работает в HD-разрешении, хорошо знает российский культурный код, нативно понимает запросы как на русском, так и на английском языках и генерирует надписи на латинице и кириллице. Модель Kandinsky 5.0 Video Pro генерирует до 10 секунд HD-видео в 24 fps и является самой лучшей открытой моделью, превосходя Wan 2.2 A14B, а также достигает паритета по визуальному качеству с Veo 3, одной из самых мощных в мире проприетарных моделей. Для снижения порога входа при интеграции в прикладные проекты, модель Kandinsky 5.0 Video Lite оптимизирована для работы на домашних видеокартах с объемом памяти от 12 ГБ.
Обучение Kandinsky 5.0 проводилось на почти миллиарде изображений и 300 млн видео. Для адаптации под отечественный культурный контекст разработчики использовали дополнительно еще более миллиона медиаматериалов. Работа с такими объёмами данных потребовала применения передовых подходов, часть из которых была создана специально для этого проекта. На финальных этапах обучения использовался сверхкачественный датасет, отобранный большой командой дизайнеров и художников. Эксперты тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством.
Модели Kandinsky открывают возможности для создания широкого спектра продуктов — от сервисов для персонального творчества до профессиональных инструментов для индустрии. На основе выкладываемых в открытый доступ нейросетей разработчики и компании смогут создавать решения, которые позволят пользователям легко генерировать персонализированные видеопоздравления, оживлять фотографии или придумывать оригинальные визуальные истории. Для профессионалов — режиссёров, дизайнеров, маркетологов, художников-аниматоров — продукты, построенные на Kandinsky 5.0, станут мощными инструментами для производства промо-материалов, контента и визуальных проектов в коммерческих сценариях. Всё это будет способствовать развитию открытой экосистемы вокруг российских генеративных технологий.
Генеративные модели, такие как Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения, и применения такого рода моделей. «Сбер» выпускает собственные, обученные с нуля автокодировщики K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно.
Модели K-VAE 1.0 являются лучшими в мире среди открытых аналогов, утверждают в «Сбере». Их публичное использование позволит вывести технологии генеративного ИИ на новый качественный уровень.
# # #



