Yandex SpeechKit научился синтезировать и распознавать речь на узбекском языке
Облачная платформа Yandex Cloud разработала нейросети, которые могут распознавать речь и воспроизводить ее на узбекском языке. Компании как в России, так и в Узбекистане уже могут использовать новый язык в сервисе Yandex SpeechKit для создания голосовых помощников, автоматизации колл-центров и речевой аналитики. Об этом CNews сообщили представители «Яндекса».
Индивидуальная настройка синтеза
Модели синтеза речи обучались на предзаписи голоса реального диктора. При этом они умеют синтезировать речь не только из текста, но и из его фонемной записи, в которой указаны все особенности звуков в словах. Это позволит клиентам корректировать в синтезе произношение отдельных слов - сложные фамилии, названия товаров, заимствованные выражения. Для этого им нужно будет указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса.
Большие датасеты для распознавания речи
Так же как и для синтеза речи, для распознавания нейросети учатся на примерах. Чтобы их обучить, специалисты Yandex Cloud собрали датасет с тысячами часов аудио и их расшифровками, в том числе короткие и длинные фразы, а также имена, адреса, даты и числа.
Узбекская латиница
Нейросети для синтеза и распознавания узбекского работают с латинским алфавитом, который используется в Узбекистане уже больше 20 лет. При этом алгоритмам пришлось выучить и некоторые звуковые особенности букв. Например, буква «X» обозначает в алфавите твердый [х], а в иностранных словах может произноситься как [кс].
«В Узбекистане сейчас активно развиваются сценарии, связанные с искусственным интеллектом, в частности с речевыми технологиями. По оценке одного из наших партнеров, объем рынка речевых технологий в Узбекистане может достигать до 395 миллионов минут обработанной речи в год. Появление нового шестнадцатого языка в Yandex SpeechKit - большой шаг для создания новых диалоговых сценариев как для узбекских, так и для российских компаний», – сказал Григорий Атрепьев, директор по продуктам в Yandex Cloud.
Модели доступны на сайте и настраиваются стандартными средствами в API. Синтез и распознавание узбекского языка с помощью Yandex SpeechKit уже начал использовать ряд компаний, в том числе, например, Kolesa Group. Также технологию уже тестируют интегрируют в свои решения компании-партнеры, в том числе Tomoru, JustAI, Unistar Digital и TargetAI.