«Сбер» выложил две собственные ИИ-модели в открытый доступ

Бизнес и разработчики получили открытый доступ к обновлённой модели «Сбера» для создания векторных представлений текста — Giga-Embeddings, а также модели для генерации видео Kandinsky Video Lite. Обе модели распространяются по открытой лицензии, допускающей свободное использование в коммерческих проектах любого масштаба.

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка, сказал: «Научная команда «Сбера» активно публикует различные модели генеративного искусственного интеллекта. Так, в открытый доступ выложены все модели линейки Kandinsky, семейство акустических моделей для русского языка GigaAM, которые находятся «под капотом» нашего сервиса GigaChat. Предоставление бизнесу и разработчикам новых мощных инструментов, как Kandinsky Video Lite и Giga-Embeddings, способствует ускорению темпов исследований, развитию инновационных продуктов и сервисов мирового уровня. Это демонстрирует наше стремление внести ощутимый вклад в развитие международного open-source-сообщества. Кроме того, это важный этап становления стандартов в сфере обработки естественного языка (NLP), а также укрепление позиций России как технологического лидера на мировой арене».

Kandinsky Video Lite позволяет создавать короткие видео длительностью до 10 секунд на основе текстового запроса (промпта). Это компактная модель, содержащая всего два миллиарда параметров. При этом по внутренним тестам Kandinsky Video Lite превосходит по общему качеству (которое включает в себя оценки качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. Особое внимание при обучении Kandinsky Video Lite было уделено пониманию отечественного культурного кода: для этого был сформирован специальный датасет из более, чем миллиона изображений и видео — при этом существенная его часть отбиралась в несколько этапов большой командой профессиональных художников и дизайнеров. За счёт этого наша модель хорошо понимает характерные для нашей страны и её истории объекты. Мы также выкладываем ускоренную версию Kandinsky Video Lite Flash, которая работает примерно в 6 раз быстрее базовой модели.

Модели найдут применение среди исследователей, разработчиков и представителей творческих профессий. Теперь создание качественных видеороликов станет доступным каждому, вне зависимости от уровня технических ресурсов или бюджета проекта.

Разработчикам и бизнесу также стала доступна в open-source обновлённая модель, преобразующая текстовую информацию в эффективные векторные представления — Giga-Embeddings. Эта модель абсолютный лидер на русском языке, она уверенно занимает первое место в общем зачёте авторитетного бенчмарка ruMTEB с результатом 74.1, значительно опережая другие открытые модели, а также показывает высочайшее качество работы и на английском языке, сохраняя конкурентоспособность на мировом уровне.

Digital Q: ответ на вызовы ИИ — новая модель разработки и новые возможности для программистов
Цифровизация

Giga-Embeddings обеспечивает построение высокоэффективных RAG-систем (Retrieval-Augmented Generation), гарантирующих надёжность и точность ответов искусственного интеллекта. Таким образом, корпоративный сектор получает мощный инструмент для повышения качества поиска по документам, аналитики данных и автоматизированной поддержки пользователей на основе актуальной информации. Разработчики с помощью модели смогут быстро создать умных помощников и чат-ботов, способствующих эффективной обработке корпоративных данных без риска появления недостоверных ответов.

Модели уже доступны для свободного использования на ведущих платформах.

