Спецпроекты

«Яндекс.Переводчик» освоил чувашский язык

Интернет Веб-сервисы

«Яндекс» объявил о том, что в «Яндекс.Переводчике» появился чувашский язык. Теперь все желающие могут переводить слова и фразы с чувашского на 97 языков и обратно. Сервис доступен на сайте и в мобильном приложении.

По данным последней переписи населения, чувашский язык считают родным более миллиона человек. На нём общаются в Чувашии, Татарстане, Башкортостане и других регионах страны. Теперь люди, которые говорят и думают на чувашском, могут использовать Переводчик для чтения текстов на иностранном языке. Кроме того, машинный перевод способствует распространению языка — в частности, помогает публиковать в «Википедии» переводные тексты на чувашском.

Чтобы научить машину переводить, нужны параллельные тексты — одни и те же, но на разных языках. А для чувашского языка таких текстов в интернете очень мало. На помощь команде «Яндекса» пришли энтузиасты, которые собрали 250 тысяч одинаковых фраз на русском и чувашском. Этого достаточно, чтобы начать обучать модель, но слишком мало для получения качественного перевода. Для сравнения, при разработке русско-английского переводчика используется на несколько порядков больше примеров.

Перевод для чувашского создавали в несколько этапов. Сначала обучили нейросеть на тех примерах, которые удалось собрать. Затем обогатили полученную модель данными из родственных языков. Для этого применили созданную ранее пантюркскую модель, которая учитывает морфологию, лексику и синтаксис сразу нескольких тюркских языков, к которым относится и чувашский. А чтобы нейросеть научилась составлять грамотные предложения на русском языке, использовали большие корпуса русских текстов и методику обратного перевода.



Стратегия месяца

LegalTech грозит заменить юристов

Средства искусственного интеллекта все чаще используются для обработки обращений за юридической помощью.

Тема месяца

Что делать ИТ-директору во время пандемии

Перед ИТ-руководителями встают задачи, связанные с обеспечением удаленной работы сотрудников.