«Пятерка» по русскому! Модель GigaEmbeddings открывает бизнесу новые возможности для ИИ-обработки текстов
Исследователи Сбербанка научили искусственный интеллект глубоко понимать русский язык, что открывает новые возможности в области умного поиска и совершенствовании чат-ботов. Об этом CNews сообщили представители Сбербанка.
Модель GigaEmbeddings на основе языковой модели GigaChat-3B использует трехэтапный процесс обучения, в который входит предварительное обучение, точная настройка и мультизадачное обучение. Благодаря оптимизации архитектуры параметры удалось сократить на 25% без потери качества. Модель доступна на GitVerse и HuggingFace.
До сих пор бизнесу не хватало качественных инструментов для работы с русским языком. Существующие решения либо требовали огромных вычислительных ресурсов, либо плохо справлялись с задачами поиска, классификации и кластеризации текстов. GigaEmbeddings помогает решать эти проблемы.

Модель оптимальна для решения таких задач, как умный поиск в e-commerce (например, точное понимание запросов на маркетплейсах), создание чат-ботов с расширенными возможностями (RAG-системы), анализ обращений клиентов в банках и финтехе, генерация персонализированных рекомендаций в медиа и ретейле.
Федор Минькин, технический директор GigaChat Сбербанка: «Сегодня мы закрываем критически важную потребность рынка в качественных NLP-решениях для русского языка. Наша комплексная платформа позволяет бизнесу радикально оптимизировать все процессы работы с текстами — от базового поиска и рекомендательных алгоритмов до передовых RAG-систем в чат-ботах. Особую ценность представляет глубокая языковая адаптация — то, чего годами не хватало российскому рынку. Компании наконец-то получают единое решение — им больше не нужно собирать функционал по частям из зарубежных продуктов. Мы ожидаем, что GigaEmbeddings станет новым отраслевым стандартом, особенно для финансового сектора, ретейла и госуслуг, где точность обработки русскоязычного контента напрямую влияет на бизнес-результат».