Разделы

ПО Софт

Машинный перевод: скромный рост при больших достижениях?

В последние годы активно растет спрос на программное обеспечение по машинному переводу с различных языков. В этой связи разработчики постоянно дорабатывают и "совершенствуют" свои продукты, чтобы они удовлетворяли потребностям клиентов. В то же время, рынок ПО для машинного перевода продолжает оставаться весьма скромным.

Первая публичная демонстрация работающей системы машинного перевода состоялась в Джорджтаунском университете в 1954 году. Система IBM Mark II переводила 49 предложений с русского языка на английский. При этом использовался минимальный словарь в 250 слов. А через десять лет уже Национальная Академия Наук США основала Комитет по проблемам автоматической обработки речи (Alpac).

Однако уже в 80-ые годы произошел прорыв – технологии машинного перевода стали доступными для гражданского населения и встали на коммерческие рельсы, что явилось прямым следствием распространения персональных компьютеров.

Если в начале системы машинного перевода строились под конкретные языки, то на сегодняшний день одним из основных требований к подобному ПО является мультиязычность. Кроме того, все большую востребованность получают наиболее сложные в этой отрасли системы по распознаванию и синхронному переводу человеческой речи.

Например, американские военные и разведывательные структуры, такие как Defense Advanced Research Projects Agency, продолжают финансировать большие проекты в области синхронного перевода. Естественно, подобные системы на сегодняшний день затребованы не только военными, но и бизнес средой. Так, в начале 80-ых годов одним из первых подобных проектов был инициирован British Telecom для перевода телефонных разговоров. Позже, в 1986 году компания ATR в Японии начала разработки англо-японского синхронного речевого переводчика, который изначально был задуман как клиент-ориентированная система – для резервации гостиниц, регистрации на конференциях и т.д.

В 1993 году под патронажем правительства Германии появился немецкий проект Verbmobil, в который были вовлечены сразу ряд крупных университетов и научных центров. Предполагалось создание переносных систем для синхронного перевода деловых переговоров с английского на немецкий и японский. И, хотя, проект в целом оказался не столь успешным и был закрыт в 2000 году, однако стал мощным толчком для развития технологий машинного перевода в стране.

Еще одной вехой является возникновение онлайн-переводчиков. В 1997 AltaVista предлагала своим пользователям до сих пор популярную систему Babel Fish. Сегодня, через десять лет, подобных сервисов уже множество.

Будущее машинного перевода

Исследование: как применяются в России low-code платформы
Бизнес

На сегодняшний день профессиональные системы машинного перевода давно превосходят старые образцы, которые еще несколько лет назад выдавали черновые продукты, в основном дающие возможность лишь понять примерный смысл текста. Интерактивная настройка, наличие множества тематических словарей и создание пользователем своих – все это позволяет сегодня получать более или менее качественный конечный продукт. Ориентированность на клиента, возможность создания и сохранения индивидуальных шаблонов перевода позволяет заточить ПО под различные области, которые затребованы пользователями. Кроме того, современные профессиональные системы интегрируются с офисными приложениями, почтовыми клиентами, браузерами, а также позволяют работать в таких форматах, как XML.


Индустрия машинного перевода не является одной из самых прибыльных в сфере ИТ

Изначально система машинного перевода развивалась в направлении анализа по заранее заданным лингвистическим алгоритмам. В последние годы все большую популярность среди разработчиков получают самообучающиеся системы, которые в дополнение к традиционным используют методы статистической обработки уже вложенной, а также развивающейся в процессе работы базы данных параллельно переведенных текстов (первые наработки в этом направлении, основанные на опыте криптографии, появились уже в 80-ых годах в США). Так называемый метод Translation Memory основывается на сравнительном анализе предлагаемого для перевода текста с имеющимися в базе данных примерами. С учетом того, что при использовании этого метода система работает по принципу накопления, то ПО "самообучается". Для устанавливаемого на ПК продукта основным фактором пополнения базы данных является сам пользователь, а также обновление ПО разработчиком. В случае онлайн-сервисов идет постоянное обновление со стороны компании-разработчика. Так, например Google, перешедший на статистический метод обработки в 2007 году, ввел в свою базу данных документы из архивов ООН в несколько миллиардов слов для обучения своей системы и т.д.

Несмотря на скромные показатели глобального рынка машинного перевода и электронных словарей, все же в ближайшее время интерес к отрасли со стороны как частных пользователей, так и корпоративных клиентов продолжает расти. Этому в первую очередь способствуют последние наработки, позволяющие существенно улучшить конечный результат. Росту рынка машинного перевода и электронных словарей способствуют глобализационные интеграционные процессы, увеличение массы перерабатываемой информации. Новым толчком к развитию этого направления стала популяризация КПК и аналогичных мобильных устройств, которые позволяют использовать подобное ПО более динамично, что приводит к увеличению сегмента продаж среди частных лиц. Для корпоративного пользователя более важны другие показатели, такие как точность перевода, интегрированность с другим ПО (например, сохранение форматирования при переводах документов, презентаций), эффективная работа с большим массивом информации.

Digital Q: ответ на вызовы ИИ — новая модель разработки и новые возможности для программистов
Цифровизация

При этом рынок продолжает оставаться небольшим, по сравнению с другими отраслями ПО. Этому в частности способствует высокая себестоимость разработок, которые требуют привлечения масштабных междисциплинарных исследований для улучшения качества. Также тормозом для развития сферы машинного перевода является наличие большого количества бесплатных словарей и переводчиков, размещенных в сети. Судя по агрессивности компаний, предлагающих бесплатные онлайн-сервисы, давление на производителей платного ПО будет только усиливаться.

Самвел Мартиросян / CNews