Разделы

ИТ в банках

В Сбербанке разработали ИИ, который работает на треть точнее, чем конкуренты

В техническом подразделении «Сбера» SberDevices создали нейросеть для распознавания человеческой речи и эмоций. По словам разработчиков она допускает на 20–35% меньше ошибок в словах по сравнению с аналогичными ИИ. И предназначена, в первую очередь, для развития научных исследований в области обработки речи.

Новая акустическая ИИ модель

Техническое подразделение Сбербанка SberDevices создало новое семейство акустических моделей для русского языка, которые позволяют эффективно распознавать речь и выражения эмоций в ней. Семейство акустических моделей — это набор методов и алгоритмов, предназначенных для анализа акустических особенностей речевых сигналов с помощью нейронных сетей. Они помогают извлекать признаки из звуковой информации в речи, необходимые для распознавания и классификации речевых данных.

Важно отметить, что все модели в этом семействе обладают открытым исходным кодом (OpenSource), что позволяет другим разработчикам использовать их, улучшать и адаптировать под свои задачи. Разработчики решения подчеркнули, что компоненты этого семейства превосходят свои аналоги в эффективности и точности распознавания. Также новая модель будет помогать в дальнейшем развитии научных исследований в области обработки речи.

Модель получила название GigaAM (Giga Acoustic Model). Она проходила обучение на разнообразной русской речи. По словам разработчиков GigaAM отлично подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.

Версии этих моделей бизнесу доступны на платформе для синтеза и распознавания речи SaluteSpeech API, а физические лица также могут ими воспользоваться в приложении SaluteSpeech App. Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей.

Что входит в семейство

В семейство акустических моделей от SberDevices входят: GigaAM — Audio Foundation Model, предобученная на разнообразной русской речи. По словам разработчиков она отлично подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.

В SberDevices создали новое семейство акустических моделей для русского языка, которые позволяют корректно распознавать речь и эмоции

GigaAM-CTC — открытая модель для распознавания русскоязычных запросов. Как показала оценка качества на семи срезах данных (от запросов в умные колонки до записей из телефонного канала), модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями как NeMo-Conformer-RNNT и Whisper-Large-v3, утверждают разработчики. Обе эти модели представляют собой высокотехнологичные решения, широко применяемые в сфере обработки речи.

GigaAM-Emo — акустическая модель для определения эмоций. Она продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей. Сравнение GigaAM-Emo проводилось с моделями: DUSHA baseline (MobileNetV2 + Self-Attention) и с TIM-Net.

Где может использоваться

В первую очередь семейство моделей GigaAM предназначено для развития научных исследований в области обработки речи.

GigaAM также может эффективно использоваться в сфере клиентского сервиса. Например, автоматическое распознавание речи может быть интегрировано в систему обработки звонков и чатов с клиентами для автоматической классификации запросов клиентов, быстрого поиска необходимой информации и определения настроения клиента через анализ эмоций в речи. Это позволит улучшить качество обслуживания клиентов и увеличить их удовлетворенность.

Как ИИ помог «Авито» стать крупнейшим и безопасным классифайдом в мире
искусственный интеллект

В области маркетинга и рекламы технологии GigaAM также могут быть полезны. Например, анализ эмоций в речи потенциальных потребителей позволит компаниям лучше понимать их потребности, предпочтения и настроения, что поможет создавать более эффективные маркетинговые стратегии и рекламные кампании.

В сфере обучения и тренингов технологии распознавания речи GigaAM могут использоваться для автоматической оценки произношения, интонации и эмоциональной окраски речи студентов или учащихся. Это поможет улучшить эффективность обучения и развитие коммуникативных навыков.

В целом, применение технологий GigaAM в бизнесе может улучшить качество обслуживания клиентов, повысить эффективность маркетинговых и рекламных кампаний, а также улучшить процессы обучения и тренингов в организации.

Антон Мушинский