Разделы

Интернет Веб-сервисы

«Вконтакте» запустила в видео автоматические субтитры на базе собственных технологий распознавания речи

В обновлённом видеоплеере «Вконтакте» появились автоматические субтитры на русском языке. Они созданы на базе собственных технологий соцсети по распознаванию речи, алгоритмов машинного обучения единой видеоплатформы и технологий интеллектуального шумоподавления единой платформы видеозвонков.

Новая технология автоматически генерирует текст, расставляет знаки препинания и заглавные буквы, распределяет текст по кадрам и обеспечивает точность появления субтитра в момент произнесения фразы. Технология «Вконтакте» умеет проставлять в субтитрах знаки препинания и заглавные буквы, а в ближайшем будущем научится разделять речь спикеров на разные реплики. Всё это значительно повышает понятность расшифровки и упрощает чтение во время просмотра видео.

Соцсеть ведёт тестирование и дообучение новой технологии: субтитры в экспериментальном режиме уже доступны части аудитории в популярных роликах и видео из верифицированных сообществ в веб-версии и мобильном приложении «Вконтакте».

Автоматические субтитры будут полезны, когда важно соблюдать тишину, нужно посмотреть видео без звука или не хочется мешать окружающим: например, в метро или офисе. Также благодаря субтитрам людям с нарушениями слуха будет проще понимать содержание видео.

Для обеспечения высокого качества расшифровки субтитров аудиопоток проходит четыре этапа обработки. Сначала запись очищается от фоновых звуков с помощью уникальной технологии интеллектуального шумоподавления — это позволяет лучше определять речь не только на профессиональных видео, но и на любительских роликах. Затем нейросеть распознаёт слова и формирует из них текст. На третьем этапе подключается пунктуационная модель: она расставляет знаки препинания и заглавные буквы. Эти решения «Вконтакте» ранее применила для распознавания аудиосообщений, а для работы с видео к ним добавили ещё один шаг: методы машинного обучения распределяют текст по кадрам, чтобы фраза появлялась точно в момент, когда говорящий её произносит.

Особое внимание уделено и производительности технологии автоматических субтитров. Инфраструктурные ресурсы используются максимально эффективно, что помогает обрабатывать все загруженные видео и быстро генерировать субтитры для новых роликов.

В ближайшее время технология создания автоматических субтитров дополнится диаризацией — это процесс, в котором аудиопоток делится на реплики в соответствии с конкретным спикером. Благодаря диаризации фразы разных людей в расшифровке будут самостоятельными, даже если собеседники общаются без заметных пауз.

Сначала автоматические субтитры появятся в видео верифицированных сообществ, а также в самых популярных роликах. До конца 2021 г. автоматические субтитры станут доступны в большинстве видео «Вконтакте».

Александр Тоболь, технический директор «Вконтакте», сказал: «В современном мире очень много информации, но, к сожалению, не для всех она одинаково доступна. «Вконтакте» стремится разрушать любые барьеры в коммуникации между людьми, активно инвестируя в развитие речевых технологий. Все решения, использующиеся для автогенерации субтитров, — собственные разработки. Это позволяет адаптировать их под разные функции сервиса и настраивать для максимально эффективной работы. Например, для создания субтитров мы усовершенствовали наши ASR-технологии и реализовали решения, которые точно синхронизируют текст с речью на видео. В будущем мы продолжим развивать нейросетевые технологии и внедрять машинное обучение в разные сервисы «Вконтакте».

Ранее «Вконтакте» полностью сняла ограничения на одновременное количество зрителей в прямых эфирах, а видео и трансляции стали доступны даже в сетях с нестабильным соединением и на слабых устройствах. Также обновления коснулись качества картинки: теперь пользователи могут смотреть видео и прямые эфиры в качестве 4К — оценить его помогает стриминг на сетевые медиаплееры Chromecast и AirPlay.

Короткая ссылка