Разделы

Интернет Веб-сервисы

VK улучшила технологии преобразования речи в текст в продуктах группы

Инженеры AI VK улучшили технологию автоматического распознавания речи (ASR) на базе моделей машинного обучения. Решение распознает речь на 20% точнее по сравнению с предыдущей версией, что повышает качество субтитров, расшифровок голосовых сообщений и «кружочков» в продуктах группы. Об этом CNews сообщили представители VK.

Технология автоматического распознавания речи (ASR) превращает голос в текст: она переводит звук в цифровой формат, очищает запись от шума и анализирует особенности звучания, чтобы понять, какие слова произнесены. LLM и нейросетевые модели помогают системе понимать контекст, смысловые связи и устойчивые выражения, благодаря чему расшифровка становится естественной и точной.

Корпоративная связь без рисков: почему компании переходят на CoWork
цифровизация

Новая версия ASR-технологий VK дообучена на расширенном датасете аудиодорожек из публично доступных видеороликов «VK Видео», поэтому точнее понимает темп и манеру речи. По итогам внутренних тестов, модель превосходит зарубежные аналоги и сервисы по качеству распознавания (WER) звуковых дорожек видео на русском языке.

ASR-технологии VK используются в создании субтитров в «VK Видео», «VK Клипах», «Учи.ру» и в голосовых сообщениях мессенджера «ВКонтакте». Они применяются для внутренних и инженерных задач, например, для расшифровки встреч или их суммаризации, а также для улучшения мультимодальных моделей в рекомендательной системе Discovery. Обновленная версия уже работает в «VK Видео» и «VK Клипах», используется во внутренних сервисах команды VK и постепенно будет внедряться в другие продукты группы. В планах у команды AI VK – повышение точности распознавания голосовых сообщений, расширение поддержки языков и добавление диаризации (разделения по спикерам).