Google создал систему распознавания речи без подключения к интернету

Веб-сервисы Техника
мобильная версия
, Текст: Сергей Попсулин

Компания Google создала систему распознавания речи и диктовки, которая занимает всего около 20 МБ в памяти мобильного устройства и не требует подключения к интернету. При этом она обладает низким коэффициентом погрешности, хотя он и вдвое превышает значение этого параметра у облачных аналогов. 


Локальное распознавание

Google разработал систему голосового управления смартфоном в реальном времени, обладающую низким коэффициентом погрешности и при этом не требующей наличия интернет-подключения. Более того, она подходит для устройств с небольшим объемом памяти, так как занимает всего 20,3 МБ.

Коэффициент погрешности

Система была успешно опробована на «эталонном» смартфоне LG Nexus 5. Он обладает 2 ГБ оперативной памяти и 4-ядерным процессором с тактовой частотой 2,26 ГГц. 

В ходе тестирования система продемонстрировала коэффициент погрешности 13,5%. Это хуже, чем у облачных аналогов, но, тем не менее, показатель достаточно неплохой, утверждают в Google.

Для сравнения, распознавание речи в Google Now происходит с погрешностью 8%, а у Apple Siri это значение равно 5%. Обе эти технологии работают только при наличии подключения к интернету, так как обработка команд выполняется на сервере (то есть являются облачными). 


Google разработал аналог Google Now и Apple Siri без подключения к интернету

Технологические приемы

Как рассказали в Google, новая система включает квантованную акустическую модель Long Short-Term Memory (LSTM) вкупе с технологией Connectionist Temporal Classification (CTC). По словам разработчиков, им удалось сократить размер системы благодаря применению схемы сжатия на базе SVD и использованию единой языковой модели для голосовых команд и диктовки, созданной с использованием байесовской интерполяции. Наконец, для верного распознавания имен в языковую модель был интегрирован список контактов с мобильного устройства. После этого система была обучена посредством 3 млн голосовых взаимодействий общей продолжительностью свыше 2 тыс. часов. 

В компании не уточнили, появится ли когда-нибудь подобная система в коммерческих продуктах.