В «Яндекс.Переводчик» встроили нейросеть с фантазией

Софт Интернет Веб-сервисы Интернет-ПО
мобильная версия
, Текст: Валерия Шмырова

В сервисе «Яндекс.Переводчик» помимо статистического перевода стал доступен вариант перевода от нейросети. Ее преимущество в том, что она работает с целыми предложениями, лучше учитывает контекст и выдает согласованный, естественный текст. Однако когда нейросеть чего-то не понимает, она начинает фантазировать.


Запуск нейросети

Сервис «Яндекс.Переводчик» запустил нейронную сеть, которая поможет повысить качество перевода. Ранее перевод с одного языка на другой осуществлялся с помощью статистического механизма. Теперь процесс будет гибридным: свой вариант перевода будет предлагать и статистическая модель, и нейросеть. После этого алгоритм CatBoost, в основе которого лежит машинное обучение, будет выбирать лучший из полученных результатов.

Пока что нейросеть выполняет только перевод с английского на русский и только в веб-версии сервиса. По данным компании, в «Яндекс.Переводчике» запросы на англо-русский перевод составляют 80% всех запросов. В ближайшие месяцы разработчики намерены внедрить гибридную модель и в других направлениях. Чтобы пользователь мог сравнить переводы от разных механизмов, предусмотрен специальный переключатель.

Отличия от статистического переводчика

Принцип работы нейронной сети отличается от статистической модели перевода. Вместо того, чтобы переводить текст слово за словом, выражение за выражением, она работает с целыми предложениями, не разбивая их на части. Благодаря этому в переводе учитывается контекст и лучше передается смысл. Кроме того переведенное предложение получается согласованным, естественным, легким для чтения и восприятия. По словам разработчиков, его можно принять за результат работы переводчика-человека.

Перевод нейросети напоминает перевод человека

К особенностям нейросети относится склонность «фантазировать», когда ей что-то не понятно. Таким образом она пытается угадать правильный перевод.

У статистического переводчика есть свои преимущества: он удачнее переводит редкие слова и выражения — мало распространенные имена, топонимы и т. д. Кроме того, он не фантазирует в том случае, если смысл предложения не ясен. По словам разработчиков, статистическая модель лучше справляется с короткими фразами.

Другие механизмы

В «Яндекс.Переводчике» есть специальный механизм, который дорабатывает перевод нейросети, как и перевод статистического переводчика, корректируя в нем рассогласованные сочетания слов и орфографические ошибки. Благодаря этому пользователь не увидит в переводе сочетаний типа «папа пошла» или «сильный боль», уверяют разработчики. Этот эффект достигается за счет сравнения перевода с моделью языка — всеми знаниями о языке, накопленными системой.

В затруднительных случаях нейросеть склонна фантазировать

Модель языка содержит список слов и выражений языка, а также данные о частоте их употребления. Она нашла применение и за пределами «Яндекс.Переводчика». Например, при использовании «Яндекс.Клавиатуры» именно она угадывает, какое слово пользователь хочет набрать следующим, и предлагает ему готовые варианты. Например, модель языка понимает, что за «привет, как», скорее всего последуют варианты «дела» или «ты».

Что такое «Яндекс.Переводчик»

«Яндекс.Переводчик — сервис по переводу текстов с одного языка на другой от компании «Яндекс», начавший работу в 2011 г. Изначально он работал только с русским, украинским и английским языком.

За время существования сервиса количество языков увеличилось до 94 языка. Среди них присутствуют и экзотические, такие как коса или папьяменто. Перевод можно выполнить между любыми двумя языками.

В 2016 г. в «Яндекс.Переводчик» был добавлен вымышленный и искусственно созданный язык, на котором общаются эльфы в книгах Дж. Р. Р. Толкина.