В «историческом прорыве Microsoft» использовалась методика российских разработчиков

Интеграция Бизнес-приложения Внедрения
мобильная версия
, Текст: Владимир Бахур
В «историческом достижении» Microsoft в области распознавания речи в числе прочего были использованы разработки резидента «Сколково». Российские разработчики из ЦРТ рассматривают рынок распознавания речи в глобальном масштабе и нацеливаются на распознавание редких языков.

Российский рекорд на английском языке

Как стало известно CNews, группа исследователей Microsoft в области искусственного интеллекта по автоматическому распознаванию телефонных разговоров удалось добиться рекордного результата с помощью методики, разработанной резидентом «Сколково», компанией «ЦРТ-инновации», входящей в группу ЦРТ, «Центр речевых технологий».

На днях компания Microsoft объявила, что ее система распознавания речи по уровню точности сравнялась с распознаванием речи живым человеком, при этом ошибка распознавания речи составила 5,9% — то есть, более 94% слов система распознаёт верно. Такой же результат в аналогичных условиях показали профессиональные стенографисты.

«Мы достигли уровня человека. Это историческое достижение», — заявил главный инженер исследовательской группы Microsoft по работе с искусственным интеллектом Сюэдунь Хуань (Xuedong Huang). 

Согласно данным научной публикации исследователей из Microsoft, наибольший вклад в улучшение результата внесло использование метода, предложенного Группой ЦРТ на международной конференции Interspeech сентябре 2016 г. в Сан-Франциско.

На вопрос CNews о том, почему эксперимент производился с английским языком, Александр Затворницкий, руководитель отдела распознавания речи ЦРТ, ответил, что в русском языке в простых задачах вроде распознавания команд или дикторской речи порядок ошибки составляет 5-7%, в телефонных диалогах 15-25%. Ситуация бывает и хуже и лучше в зависимости от темпа беседы, темы, интеллигентности беседующих.

Александр Затворницкий, руководитель отдела распознавания речи ЦРТ

По словам Александра, английский является наиболее изученным и довольно простым, поскольку относится к языкам, в котором грамматические отношения, в основном, передают не словоизменением, а служебными словами. В итоге, словарь на 50 тыс. словоформ для английского - это довольно много, а для русского нужно не менее 200 тыс. По его словам, сложны флективные или аглютинативные языки (русский, арабский и другие), а также малоизученные языки. Но человеческая речь постоянно преподносит сюрпризы: например, распознавание малоизученного аглютинативного грузинского на практике оказалась не очень сложной задачей.

Где деньги?

По словам Александра, владение даже основами технологии распознавания дает преимущества даже на нынешнем этапе: «распознавание речи используется все чаще на мобильных устройствах, потому что из-за небольшого экрана набирать текст с помощью клавиатуры не всегда удобно. Этому способствует как развитие облачных технологий, так и увеличение мощности самих гаджетов. Технология применяется как в голосовых помощниках,  так и просто для быстрого набора текста. Голосовые помощники становятся все более «умными» благодаря развитию технологий, и пользователи начинают активнее ими пользоваться. В корпоративном сегменте распознавание речи активнее всего используется в голосовых IVR и в бизнес-анализе». 

На российском рынке, по словам Александра, «ЦРТ-инновации» преуспели в обоих сегментах, для завоевания мирового рынка нужно развивать распознавание других языков (помимо русского): «Мы сделали распознавание английского как наиболее распространенного и намерены делать локализацию наших продуктов для него, но также наша стратегия в этом отношении – занять нишу редких языков. Мы первые сделали распознавание казахского, готовое к промышленному внедрению, и распознавание египетского диалекта арабского».

В настоящее время разработки «ЦРТ-инноваций» активно внедряются в отечественной индустрии. Например, один из продуктов компании, Smart Logger II, позволяет использовать распознавание речи в бизнес-анализе. Его активно используют аналитики контакт-центров (например, в Ростелекоме) для решения таких задач, как выявление лучших и худших практик в продажах, анализ причин длительных и повторных обращений, анализ причин возникновения претензий, оценка продвижения сервисов самообслуживания, анализ соблюдения операторами скриптов и стандартов обслуживания клиентов, а также выявление причин оттока клиентов.

Принцип работы алгоритма основан на первичном распознавании речи всех 100% фонограмм диалогов клиентов с операторами. Затем они анализируются по параметрам, заданным аналитиком: от поиска ключевых слов, сигнализирующих что-то конкретное, до разделения всех диалогов на тематические кластеры (используется для выявления, например, непрофильных тем обращений) и анализа эмоционального фона.  

Применение технологий распознавания речи

Продукт «ЦРТ-инноваций», специально разработанный для создания систем голосового взаимодействия, называется VoiceNavigator. Он позволяет автоматизировать предоставление большего количества услуг и справочной информации, чем существующие IVR-меню на DTMF. В качестве примера Александр привел тиичную ситуацию со звонком клиента в банк с типовым вопросом, по поводу которого нет смысла ждать освобождения оператора – на вопрос может ответить и робот, синтезированным голосом. Подобные системы, по словам Александра, уже работают в РЖД, Интер РАО ЕЭС, клинике Алмазова и др. 

Как это работает?

Эксперты ЦРТ отмечают, что сейчас идёт вторая волна революции глубокого машинного обучения. Первая была примерно 2005 г. - тогда появились новые алгоритмы машинного обучения на обычных сетях прямого распространения. Сети прямого распространения устроены просто: они состоят из нескольких последовательно расположенных слоёв. Но их, благодаря новым алгоритмам обучения, стали делать более глубокими и получать рекордные результаты.

Сейчас идёт вторая волна - развиваются сверхглубокие нейронные сети и рекуррентные сети. Рекуррентные нейронные сети тоже изучаются очень давно и в некоторых областях, таких, как языковое моделирование, они являются стандартом де-факто. При этом, они неидеальны: существует проблема быстрого "затухания" памяти: их память очень кратковременная. 

Применяемая на практике архитектура LSTM является одним из вариантов рекуррентных нейронных сетей, позволяющих решить эту проблему (LSTM, long short-term memory, "длинная кратковременная память", или "продление кратковременной памяти"). 

Использование такого рода рекуррентных нейронных сетей позволило получить рекордные результаты в акустическом моделировании, чем "открыло" вторую волну революции глубокого обучения в распознавании речи. Эти наработки сейчас активно исследуют и применяют такие компании, как Google, IBM, Microsoft, ЦРТ и   ведущие университеты - Cambridge, MIT, John-Hopkins University, ИТМО.

По словам разработчиков, заслуга ЦРТ заключается не в изобретении LSTM-сетей, что было сделано достаточно давно, а в удачном применении и разработке нового алгоритма их обучения для языкового моделирования спонтанных телефонных диалогов. Свежее решение было подхвачено на конференции и IBM, и Microsoft. Последняя помогла преодолеть барьер, остававшийся Microsoft до получения её рекордного результата. 

О проблеме распознавания речи российские разработчики рассказали CNews множество интересных подробностей. Оказывается, задача распознавания речи интересна тем, что достигнуть «человеческого» уровня невероятно сложно, этого еще не сделал никто. Отдельные успехи сделаны в ряде задач. 

В распознавании дикторской речи или распознавании команд (как сейчас в смартфонах) близкий к человеческому уровню результат был получен уже давно, а распознавание спонтанных телефонных диалогов – задача гораздо более сложная. Но сейчас покорилась и она. Тут уровень ошибки составляет порядка 4-7%. 

Но есть ещё задачи, на которых до человека технологиям далеко. Так, на русскоязычных спонтанных диалогах ошибка составляет 15-25% (хотя, бывают очень сложные диалоги со значительно большей ошибкой). Что касается телефонных диалогов на арабском, ошибка доходит до 50% (по результатам международного конкурса, в котором участвовали крупные университеты и разработчики IBM, BBN, и др. Организатор - Национальный институт стандартизации и технологий США).

Задача распознавания записей совещаний пока также очень далека от решения – процент ошибки также составляет порядка 50%. Человек распознает речь в широком диапазоне акустических условий, в разных стилях, адаптивно. Системы распознавания решают каждую из этих задач отдельно, используя разные алгоритмы. Пока наши системы не станут распознавать так же, как человек, задачу распознавания нельзя считать решённой.

Немного статистики

На сегодняшний день набор алгоритмов, разработанный учёными группы ЦРТ, занимает третье место в мире по качеству распознавания англоязычной речи в лабораторных условиях. Российские технологии уступают только последним разработкам IBM и Microsoft.

Сергей Ходаков, руководитель направления «Безопасные информационные технологии» ИТ-кластера Фонда «Сколково»: «Достижение уровня  точности распознавания речи, сопоставимый с точностью человека,- важный шаг к созданию новых технологий и продуктов, направленных на решение задач автоматизации предоставления сервисов и обеспечения безопасности. Считаю, что признание технологий разработанных “ЦРТ-инновации” со стороны ведущий компании является отличной рекомендаций, подтверждающей инновационность и высокий коммерческий потенциал российских разработок. Это достижение поможет нашему резиденту укрепить свои позиции в России и успешно продолжить коммерциализацию на международном рынке». 

Про уникальность

В ЦРТ говорят, что когда обратили пристальное внимание на рынок систем распознавания речи английского языка, в первую очередь, решили оценить свой результат. Он оказался неплохим - чуть отставал от лучшего результата IBM в 8%. 

Компания решила получить и опубликовать рекордный результат, и обычными способами повышения качества получили процент ошибки в 7,8%. IBM тогда же улучшил результат до 6,6%, а Microsoft перехватил пальму первенства буквально в дни конференции InterSpeech 2016 и получил 6,3%.

Оставалось 0,4%, и в октябре, используя полученные на конференции знания, специалисты ЦРТ смогли преодолеть этот барьер. 

Сейчас у «ЦРТ-инновации» есть лабораторная система с качеством 7,8%, что является третьим в мире по качеству на телефонной спонтанной речи на данный момент. 

Мировой рынок

В ЦРТ разделяют мнение экспертов из MarketsandMarkets, которые считают, что объем мирового рынка распознавания речи и голоса к 2022 г. достигнет $11,96 млрд. Аналитики считают, что рынок распознавания речи будет расти со скоростью 15,8%. Рынок распознавания голоса, или голосовой биометрии будет расти со скоростью 23,7% в год и к 2022 г. достигнет $1,99 млрд (MarketsandMarkets, данные за июнь 2016).    

Для сравнения: объем мирового рынка распознавания речи и голоса в 2015 г. составил $4,2 млрд. По данным экспертов, объединяют их не случайно: в последнее время решение все большего количества бизнес-задач связано как с определением того, что человек говорит, так и того, кто это говорит (в банках, контакт-центрах, медучреждениях).  

Драйверами роста рынка распознавания речи и голоса в ближайшие годы будут учащающиеся случаи электронного мошенничества в корпоративном сегменте и здравоохранении, развитие онлайн-банкинга национальными и международными банками и ритейлерами, занимающимися e-commerce.