Разделы

Цифровизация Техника Искусственный интеллект

Исследователи «Яндекса» раскрыли принципы работы нейросети для распознавания голосовых команд на фоне шума

Исследователи «Яндекса» опубликовали научную статью с подробным описанием нейросетевой технологии, которая позволяет распознавать голосовые команды даже на фоне шума. Это решение уже применяется в устройствах «Яндекса», а теперь его смогут воспроизвести разработчики со всего мира. Об этом CNews сообщили представители «Яндекса».

Технология, описанная в научной работе, применяется в умных колонках и «ТВ Станциях» «Яндекса» и доказала свою эффективность на практике. Благодаря ей устройства с «Алисой» улавливают команды на фоне самых разных шумов: звуков музыки, льющейся воды, вечеринки или стройки за окном. Например, пользователю не нужно выключать пылесос или перекрикивать песню, чтобы быть услышанным. Эта разработка позволит компаниям ускорить создание собственных ассистентов и устройств с голосовым управлением, а также снизить число ложных срабатываний. В свою очередь, пользователи получат продукты с удобным голосовым управлением.

Кирилл Булгаков, «Нота», «Т1»: Речь идет не просто о создании продуктов, а о становлении полноценного вендора
Технологии идей

Обычно в умных устройствах и ассистентах используют алгоритмы эхоподавления, которые помогают распознать голос на фоне музыки. Уменьшить другие фоновые звуки помогают алгоритмы шумоподавления, но они ухудшают и человеческую речь. Для решения этой проблемы «Яндекс» разработал нейросетевой attention-механизм, который получает на вход сразу два сигнала — с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее четкий сигнал, что и позволяет распознавать команды на фоне самых разных звуков.

Дмитрий Солодуха, руководитель направления голосовой активации «Яндекса»: «До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надежен в лабораторных тестах и в реальных условиях. Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведет к появлению большего количества удобных и надежных голосовых устройств».