Разделы

ПО Импортонезависимость

Исследователи «Яндекса» представили новый метод оценки и улучшения машинного перевода

Исследователи «Яндекса» разработали новый метод оценки качества машинного перевода. Эту разработку можно использовать для совершенствования моделей, которые уже переводят тексты довольно точно, но делают это не всегда естественно. Например, в неформальном диалоге модель может перевести «sorry, my bad» как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обращать внимание нейросетей на такие недочёты. Об этом CNews сообщили представители «Яндекса».

Новая система оценки «Яндекса» называется RATE (Refined Assessment for Translation Evaluation — улучшенная метрика для оценки перевода). Она не используется напрямую для дообучения моделей перевода. Но RATE позволяет с высокой точностью оценить, где именно современные модели ошибаются и что нужно улучшить, чтобы их переводы стали точнее и естественнее для пользователя.

В отличие от других метрик, RATE оценивает перевод по трем главным для пользователя критериям: точность передачи смысла, естественность языка и соответствие стилю оригинала. Это позволяет использовать метод для любых типов текстов. Например, с его помощью в новостях можно проверить точность передачи фактов, в постах соцсетей — выявить чрезмерную формальность фраз, а в художественных текстах — оценить стиль и плавность речи. RATE не только отмечает саму ошибку, но и оценивает её значимость — от небольших неточностей до сильных искажений.

Эксперимент показал: современные модели машинного перевода достигли значительного прогресса в точности. При этом эталоном естественности и плавности речи по-прежнему остается человеческий перевод, хотя большая языковая модель «Яндекса» уже приблизилась к этому уровню, опередив такие модели, как Claude-3.5 и GPT-4.

Как система класса ITAM помогает навести порядок в ИТ-активах
Цифровизация

«Когда мы работали с другими методами, нам не хватало детализации. MQM слишком сложный, а ESA замечает только грубые ошибки. Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя в восприятии перевода. RATE позволяет оценить и точность, и естественность перевода, даёт более полную картину его качества и может подсказать разработчикам, как развивать модель для улучшения перевода», — сказала Екатерина Еникеева, руководитель команды оценки качества перевода в «Яндексе».

«Яндекс» уже использует RATE для улучшения своих моделей, адаптируя их переводы под разные сценарии — от деловой переписки до неформального общения. RATE также помогает «Яндексу» создавать новые алгоритмы, ориентированные на живую человеческую речь, а не только на формальные критерии.