Более 120 тысяч книг в новом звучании: голос виртуального рассказчика в «Яндекс Книгах» стал более естественным
«Яндекс Книги» запустили новую версию виртуального рассказчика с улучшенной нейросетевой моделью синтеза голоса. Функция доступна более чем для 120 ты. произведений. Благодаря обновлению технологии, интонации рассказчика стали более живыми и естественными, а манера чтения теперь меняется в зависимости от жанра книги. Новая модель демонстрирует высокое качество синтеза на русском языке, превосходя решения крупнейших мировых игроков в области синтеза речи — например, в 80% случаев она синтезирует голос лучше ElevenLabs. Об этом CNews сообщили представители «Яндекса».
Виртуальный рассказчик позволяет слушать книги, у которых пока нет готовой аудиоверсии. Это открывает доступ к книгам незрячим и слабовидящим людям. Прежняя нейросетевая модель быстро синтезировала голос, но он мог звучать слишком монотонно. Новая технология решает эту проблему. Теперь прослушивание книг станет интереснее, можно будет глубже погрузиться в происходящее, а возможно, и переосмыслить прочитанное — в аудиоформате книги могут открыться по-новому.
Для обучения модели использовали фрагменты речи, которые записали вместе с профессиональными дикторами. Они зачитывали тексты разных жанров: фантастику, детективы, романы и учебники. Благодаря этому виртуальный рассказчик меняет интонацию в зависимости от жанра произведения — это особенно важно для художественной литературы, где часто встречается прямая речь. Модель научилась определять, когда начинается диалог, и выделять интонационно реплики героев. А чтобы речь звучала плавно и без задержек, модель начинает синтезировать первые звуки слова, параллельно генерируя следующие.

По данным замеров методом слепого тестирования, новая модель синтезирует голос заметно лучше предыдущей. По общему впечатлению от голоса она выигрывает в 74% случаев, по интонации — в 78%, по естественности звучания — в 73%.
Виртуальный рассказчик появился в «Яндекс Книгах» летом прошлого года. Функция доступна в веб-версии и мобильном приложении сервиса. В настройках можно выбрать мужской или женский голос рассказчика. Чаще всего люди слушают аудиокниги по будням в семь-девять утра и вечером после семи, то есть по дороге на работу и обратно.