Компания BSS добилась наилучшего качества распознавания казахского языка
Технология ASR необходима для распознавания устной речи клиентов, которые обращаются к виртуальному ассистенту с запросами. Чтобы оперативно обучить модель в условиях отсутствия исходных данных, разработчики использовали реальные диалоги на казахском языке, содержащие релевантную для заказчика лексику. Аналитики BSS тщательно транскрибировали 10 часов аудиоматериалов, перенеся корректно их в текстовый режим. Об этом CNews сообщили представители BSS.
Параллельно из открытых источников были собраны готовые речевые корпуса длительностью 1,5 тыс. часов. На основе этих данных была обучена первая базовая версия модели, качество распознавания устной речи которой составило 70%. Затем базовая модель ASR была дообучена транскрибированными аналитиками 10-часовыми аудиоматериалами. После второй итерации модель показала качество в 80% на целевых запросах клиентов. Сейчас разработчики BSS запускают новый цикл обучения ASR, чтобы улучшить показатель распознавание устной речи.
«Наша команда показала выдающийся результат, разработав модель ASR за три месяца без исходных данных и сразу с уровнем качества в 80%. Мы собрали тестовый набор фраз клиентов заказчика и протестировали эти материалы на решениях других вендоров. Наша модель оказалась лучшей для заказчика, обогнав всех по качеству распознавания», — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.
Он также отметил, что команда BSS осуществила переход модели ASR с архитектуры Conformer на ZIP-Former. «Это позволило ускорить ASR в три раза и повысить качество распознавания речи на 5%. Также благодаря переходу на более производительную архитектуру реакция бота сокращается на 200-500 мс, что повышает естественность диалога с клиентами», — сказал Александр Крушинский.