Голосовых ассистентов скоро будет больше, чем людей на планете Земля. По прогнозам исследовательской компании Juniper Research, ожидается, что к 2024 г. около 8,4 млрд устройств будут обращаться к своими владельцам голосами цифровых помощников. При этом такие мини-роботы — лишь малая часть решений, созданных на основе речевых технологий.
Путь от удивительной новинки до бизнес-инструмента
Голосовые технологии встречают нас повсюду: виртуальные помощники сидят внутри бытовых приборов, мы разговариваем с виртуальными ассистентами по телефону и очень часто даже не можем определить точно — человек ли на том конце провода или нет? Такая неопределенность означает, что потребители уже привыкли взаимодействовать с техникой именно так — с помощью речи, и не теряются, если к ним обратится робот, говорящий синтезированным голосом.
Голосовые команды начали понимать практически все — даже компьютерные мыши. Речевые технологии проделали путь от удивительной новинки, призванной показать клиентам, насколько инновационна компания, до стандартного бизнес-инструмента.
Продукты по синтезу и распознаванию речи используются для автоматизации работы колл-центров для того, чтобы сэкономить на дикторах для озвучивания интерактивного голосового меню (IVR) и позволяют легко менять тексты в нужный момент. Живой диктор не будет перечитывать одно слово, потому что отделу маркетинга вдруг срочно понадобилось изменить род, число или падеж в сообщении. Он перечитает всё предложение или весь текст целиком, чтобы избежать эффекта «звуковой заплатки» — ведь голос человека звучит по-разному в течение дня.
Робот же постоянен и одинаков. Он будет с равным успехом озвучивать меню IVR или интересные подкасты, помогая экономить на продакшене. Позволит зазвучать интерфейсам сайтов, игровых приложений. С помощью речевых технологий можно создавать собственных голосовых помощников, которые смогут работать и в смартфоне, и в автомобиле, и в больнице.
Распознавание речи нужно практически всем подразделениям в компании. Видеовыступления и лекции можно легко превратить в текст и законспектировать. Менеджеры смогут анализировать работу персонала или быстро найти все особенности коммуникации с каждым конкретным клиентом.
Решения по распознаванию и синтезу речи находят всё больше применений, их возможности ширятся с каждым днем. Такой инструмент помогает общаться, быстро получать необходимые услуги, но и это только начало. Всё чаще на рынке появляются целые комплексы решений, которые позволяют понимать, что говорят пользователи, синтезировать речь, но главное — проводить анализ данных и на основе полученных сведений продумывать дальнейшую тактику и стратегию по управлению собственной компанией.
Умный разговор
Один из примеров подобного решения — платформа SmartSpeech от Сбера, которую развивает команда SberDevices.
Платформа построена на двух технологиях — распознавании аудио по предоставленной звуковой дорожке и синтеза речи из написанного текста, в том числе на английском языке. Эти функции можно использовать как вместе, так и по отдельности.
Речевые технологии — не самая простая тема. Нужно понимать, о чем может говорить клиент, что ему отвечать, как правильно определять конец предложения. Чтобы улучшить распознавание, можно выбрать подходящую голосовую модель. Например, для определения телефонных разговоров стоит использовать одну модель, а для виртуального ассистента — другую.
Один из существенных плюсов платформы — легкая интеграция по API. Программный интерфейс SmartSpeech использует протоколы HTTP и gRPC, поэтому интеграция возможна в самые короткие сроки и практически с любой системой.
Немаловажный фактор, что платформа от Сбера является всецело российской разработкой. Сейчас страна происхождения решения и право интеллектуальной собственности на его код — это существенный аспект обеспечения информационной безопасности.
Для обеспечения клиентов решениями полного цикла, помимо речевых технологий, Сбер также предоставляет инструменты для обработки естественного языка, классификации запросов от пользователей и создания сценариев диалога.
Испорченный телефон
Все функции сервиса можно использовать в телефонии. Продукт позволяет без специального оборудования подключать речевые технологии, например, в интерактивном голосовом меню (IVR), автоответчике, чатах, голосовых интерфейсах взаимодействия, для озвучивания контента и команд или голосового ввода на устройствах и сайтах.
Платформа сама распознает и синтезирует речь, а также способна использовать «подсказки», помогающие максимально правильно понимать пользователя в зависимости от конкретной ситуации. SSML (язык разметки синтеза речи) позволяет разработчикам настраивать генерацию звука, чтобы синтезированная речь могла менять тон, интонацию и скорость у каждого отдельного слова в предложении.
Распознавание речи в телефонии — задача сложная. Телефонные сеты могут сильно отличаться друг от друга: как бизнес-лексикой, так и качеством аудиопотока из-за разных кодеков, телефонных шлюзов и систем записи. Поэтому качество распознавания может быть нестабильным, а метрика качества WER (Word Error Rate) может варьироваться от 3% до 40% для одной и той же модели. Чтобы преодолеть эти сложности, разработчики используют разметку гигантских массивов данных.
Однако только 20% разметчиков данных способны корректно распознать запись, допустив ошибки менее, чем в 10% слов (иными словами, достигают WER ниже 10%). А для распознавания эмоций по телефону и вовсе используются отдельные специалисты, потому что сеты специфические, разметчика нужно обучать обращению с ними.
«Как мы подошли к этой задаче? — рассказывает Денис Афанасьев, директор дивизиона В2В-продуктов «Салют» SberDevices. — Если просто нанять разметчиков, то легко можно увидеть, что большинство будет писать транскрипции даже хуже автоматической системы распознавания речи. Поэтому из всех сотрудников мы сначала отбираем лучших и нагружаем их одинаковыми заданиями. Далее мы неким образом агрегируем полученные данные так, что получается результирующая разметка, которую ни смог бы самостоятельно написать ни один человек. Сложный алгоритм собирает разрозненные кусочки так, чтобы WER разметки получался в 5%. Если кто-то утверждает, что добился качества в 3% именно на телефонных разговорах, спросите у него, как такое возможно? Мы сравнивали свои результаты с конкурентами. Наше качество — одно из лучших в индустрии».
Создатели охотно пользуются решением и сами. Благодаря SmartSpeech клиенты банка по номеру 900 в любое время суток без ожидания ответа оператора могут решить стандартные вопросы. Например, узнать баланс своей банковской карты.
Решения присутствуют и в семействе виртуальных ассистентов «Салют», которые помогают пользователю с его запросами, умеют управлять финансами, заказывать еду, рекомендовать подходящий контент и многое другое.
Раскапываем эмоции и находим инсайты
SmartSpeech может выполнять глубокий анализ архивов записей. Таким образом, решение позволяет не только экономить, но и проводить необходимую аналитику. Например, оно умеет распознавать эмоции. Результаты распознавания эмоций можно использовать в инструментах повышения лояльности клиентов.
Когда мы общаемся, то точно знаем — не всё зависит от лексики. Клиент может сказать: «Прекрасно!», и его визави поймет: действительно ли всё хорошо, или это был сарказм, а «прекрасно» значит «ужасно». То, как именно говорит человек, имеет большое значение. Системы распознавания постепенно учатся разбираться в нюансах, потому что бизнесу необходимо найти из всего потока звонков такие, где есть негатив, понять, в чем была проблема и поработать над собой, найти новые точки для своего роста. Или, напротив, компания, увидев позитивные высказывания клиентов, сможет определить, что именно нужно масштабировать в своих продуктах для улучшения общего качества обслуживания.
Благодаря качественному распознаванию речи и эмоций новая модель SmartSpeech Insights CSI умеет предсказывать Customer Satisfaction Index (CSI) в телефонных разговорах между клиентом и оператором. Эти данные помогают менеджменту принимать взвешенные решения и учитывать все звонки, даже те, где клиент сам оценку не оставил.
Использование этой модели может позволить отказаться от опросов в их традиционном понимании и больше не просить клиентов ставить оценки от одного до десяти. Причем, по статистике, меньше 5% людей оставляют обратную связь после разговора с оператором, при этом выборка клиентов, которые всё же ставят оценки, отличается от портрета среднего клиента.
В SmartSpeech для каждого произнесенного предложения распознается три эмоции — нейтральная, позитивная, негативная. «Наша модель распознает эмоции одновременно с общим распознаванием речи, а также предсказывает оценку CSI, скрытую во многих случаях, когда клиент отказался оставить обратную связь. Доступ к такой аналитике играет значимую роль в рамках принятия управленческих и стратегических решений и может оказать существенное влияние на дальнейшее развитие вашего бизнеса», — говорит Денис Афанасьев.