Цифровизация Бизнес-приложения

15 Марта 2021 10:12 15 Мар 2021 10:12 |

«Наносемантика» презентовала голосовую технологию NLab Speech

«Наносемантика», резидент кластера информационных технологий Фонда «Сколково», представила технологию NLab Speech. С ее помощью можно, например, сократить расходы на колл-центры, облегчить заполнение документов и улучшить качество жизни людей с ограниченными возможностями.

NLab Speech – это набор нейросетевых алгоритмов обработки аудиосигналов и анализа текста, обученных и откалиброванных на большом количестве размеченных вручную речевых данных.

На данный момент показатель точности NLab Speech (обратный Word Error Rate) составляет более 82% на зашумлённых данных из телефонии. А скорость обработки данных в облаке «Наносемантики» достигает 6 real-time factor – это на 40-80% выше скорости конкурирующих облачных сервисов.

Станислав Ашманов, генеральный директор компании «Наносемантика», сказал: «Мы уже наравне с лидерами по точности голосовых технологий, работающих на русском языке, и стремимся качественно превзойти их. Для этого есть все предпосылки: мы улучшаем языковые и акустические модели, нейросеть-пунктуатор. Собираем еще больше качественных данных для обучения нейронных сетей. Также для повышения точности распознавания речи мы планируем внедрить в NLab Speech классификацию аудио по полу, возрасту, скорости речи, высоте тона, громкости и эмоциям говорящего. Более того, мы планируем добавить классификацию мест по шуму окружения говорящего. Вместе с этим ведется разработка английского, китайского и корейского ASR».

Павел Кривозубов, руководитель направления «Робототехника и искусственный интеллект» Фонда «Сколково», отметил: «Сложно переоценить улучшение качества голосовых роботов на основе автоматического распознавания речи (ASR) от “Наносемантики” для организаций, доверяющих обслуживание клиентов машинному обучению. Голосовой помощник, наделенный речевыми возможностями высокого уровня и распознавания слов, заменяет десятки и сотни сотрудников колл-центра, что сокращает расходы компании на персонал и повышает скорость обслуживания клиентов. Внедрение ASR существенно облегчит и оптимизирует работу и в других сферах бизнеса. К примеру, медработники с помощью голосового заполнения документов смогут быстро составлять анамнезы, а люди с ограниченными возможностями за счет голосовых технологий улучшат качество своей жизни».

Над созданием технологии команда трудилась больше двух лет. Чтобы подготовить большой массив обучающих данных «Наносемантика» разработала платформу для их разметки NLab Marker. C ее помощью данные преобразуются в формат, пригодный для обучения нейронных сетей.

В отличие от человека, нейронная сеть в NLab Speech анализирует звуковой сигнал как изображение: каждому аудио сопоставляется его спектрограмма, после чего нейронная сеть переводит спектрограммы в текстовые предположения о том, что было произнесено в аудио. Наилучший вариант определяется при помощи языковой модели, учитывающей частотные показатели совместной встречаемости слов.

Почему open source требует стратегии и какой она должна быть

Цифровизация

Для обучения акустических моделей было собрано более 12 тысяч часов аудио из различных источников: колл-центры, голосовые сообщения, аудиокниги, вебинары. Также были подготовлены наборы данных для обучения моделей, которые показывают лучшие результаты на записях с микрофонов пользовательских устройств, таких как смартфоны и ноутбуки. Пришлось учесть реверберацию и эквализацию при работе с аудио записями из разных источников и полученных при записи в разных условиях.

На сегодняшний день технология распознавания речи NLab Speech от «Наносемантики» – это самодостаточная технология, повторяющая речевые возможности человека, не требующая участия в процессе сторонних сервисов. Быстрое и масштабируемое распознавание речи работает и на процессорах, и на видеокартах. NLab Speech включает в себя как файловое распознавание речи, так и потоковое. Первое выдает только конечный результат, а потоковое – в том числе и промежуточные после каждого сказанного слова, которые корректируются в зависимости от продолжения речи (такой же принцип используется, например, в Apple Siri). Помимо прочего, ASR от «Наносемантики» работает с основными протоколами связи: websocket, grpc и mrcp — это обеспечивает гибкость NLab Speech при интеграции сервиса конкретному клиенту. Также имеется разбивка стереозаписей по диалоговым репликам для удобства использования результатов ASR в системах речевой аналитики. NLab Speech автоматически корректирует написание текста, исправляет ошибки и расставляет пунктуацию.

Какой дисплей для смартфона лучше: AMOLED или IPS?

Владимир Бахур

Подписаться на новости

Короткая ссылка

«Наносемантика» презентовала голосовую технологию NLab Speech

Другие материалы рубрики

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026

CNewsMarket

VPS

Онлайн-бухгалтерия

BPM

DRaaS

Техника

Обзор беспроводной акустической системы Hisense HT Saturn: новый уровень комфорта и погружения

Лучшие устройства Dreame на распродаже к 8 марта: выбор ZOOM

Лучшие моноблоки с диагональю 27 дюймов: хиты продаж

Наука

Когда и как водород попал на Землю? Крупнейший на планете резервуар — прямо у нас под носом

Почему наступают ледниковые периоды? Ученые назначили козлом отпущения Марс

Новое исследование показывает, что человеческий мозг работает на автопилоте две трети дня

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Топ-10
ИТ-трендов
в России на 2026 г.

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

«Наносемантика» презентовала голосовую технологию NLab Speech

Другие материалы рубрики

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026

CNewsMarket

VPS

Онлайн-бухгалтерия

BPM

DRaaS

Техника

Обзор беспроводной акустической системы Hisense HT Saturn: новый уровень комфорта и погружения

Лучшие устройства Dreame на распродаже к 8 марта: выбор ZOOM

Лучшие моноблоки с диагональю 27 дюймов: хиты продаж

Наука

Когда и как водород попал на Землю? Крупнейший на планете резервуар — прямо у нас под носом

Почему наступают ледниковые периоды? Ученые назначили козлом отпущения Марс

Новое исследование показывает, что человеческий мозг работает на автопилоте две трети дня

Чем дольше тянешь с уходом от SAP, тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни, где, как и для чего»

Чем дольше тянешь с уходом от SAP, тем дороже внедрение

Топ-10 ИТ-трендов в России на 2026 г.

Студентам говорят «используй ИИ при написании диплома, только объясни, где, как и для чего»

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Топ-10
ИТ-трендов
в России на 2026 г.

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»