Разделы

ПО Софт

Машинный перевод: скромный рост при больших достижениях?

В последние годы активно растет спрос на программное обеспечение по машинному переводу с различных языков. В этой связи разработчики постоянно дорабатывают и "совершенствуют" свои продукты, чтобы они удовлетворяли потребностям клиентов. В то же время, рынок ПО для машинного перевода продолжает оставаться весьма скромным.

Первая публичная демонстрация работающей системы машинного перевода состоялась в Джорджтаунском университете в 1954 году. Система IBM Mark II переводила 49 предложений с русского языка на английский. При этом использовался минимальный словарь в 250 слов. А через десять лет уже Национальная Академия Наук США основала Комитет по проблемам автоматической обработки речи (Alpac).

Однако уже в 80-ые годы произошел прорыв – технологии машинного перевода стали доступными для гражданского населения и встали на коммерческие рельсы, что явилось прямым следствием распространения персональных компьютеров.

Если в начале системы машинного перевода строились под конкретные языки, то на сегодняшний день одним из основных требований к подобному ПО является мультиязычность. Кроме того, все большую востребованность получают наиболее сложные в этой отрасли системы по распознаванию и синхронному переводу человеческой речи.

Например, американские военные и разведывательные структуры, такие как Defense Advanced Research Projects Agency, продолжают финансировать большие проекты в области синхронного перевода. Естественно, подобные системы на сегодняшний день затребованы не только военными, но и бизнес средой. Так, в начале 80-ых годов одним из первых подобных проектов был инициирован British Telecom для перевода телефонных разговоров. Позже, в 1986 году компания ATR в Японии начала разработки англо-японского синхронного речевого переводчика, который изначально был задуман как клиент-ориентированная система – для резервации гостиниц, регистрации на конференциях и т.д.

В 1993 году под патронажем правительства Германии появился немецкий проект Verbmobil, в который были вовлечены сразу ряд крупных университетов и научных центров. Предполагалось создание переносных систем для синхронного перевода деловых переговоров с английского на немецкий и японский. И, хотя, проект в целом оказался не столь успешным и был закрыт в 2000 году, однако стал мощным толчком для развития технологий машинного перевода в стране.

Еще одной вехой является возникновение онлайн-переводчиков. В 1997 AltaVista предлагала своим пользователям до сих пор популярную систему Babel Fish. Сегодня, через десять лет, подобных сервисов уже множество.

Будущее машинного перевода

На сегодняшний день профессиональные системы машинного перевода давно превосходят старые образцы, которые еще несколько лет назад выдавали черновые продукты, в основном дающие возможность лишь понять примерный смысл текста. Интерактивная настройка, наличие множества тематических словарей и создание пользователем своих – все это позволяет сегодня получать более или менее качественный конечный продукт. Ориентированность на клиента, возможность создания и сохранения индивидуальных шаблонов перевода позволяет заточить ПО под различные области, которые затребованы пользователями. Кроме того, современные профессиональные системы интегрируются с офисными приложениями, почтовыми клиентами, браузерами, а также позволяют работать в таких форматах, как XML.


Индустрия машинного перевода не является одной из самых прибыльных в сфере ИТ

Изначально система машинного перевода развивалась в направлении анализа по заранее заданным лингвистическим алгоритмам. В последние годы все большую популярность среди разработчиков получают самообучающиеся системы, которые в дополнение к традиционным используют методы статистической обработки уже вложенной, а также развивающейся в процессе работы базы данных параллельно переведенных текстов (первые наработки в этом направлении, основанные на опыте криптографии, появились уже в 80-ых годах в США). Так называемый метод Translation Memory основывается на сравнительном анализе предлагаемого для перевода текста с имеющимися в базе данных примерами. С учетом того, что при использовании этого метода система работает по принципу накопления, то ПО "самообучается". Для устанавливаемого на ПК продукта основным фактором пополнения базы данных является сам пользователь, а также обновление ПО разработчиком. В случае онлайн-сервисов идет постоянное обновление со стороны компании-разработчика. Так, например Google, перешедший на статистический метод обработки в 2007 году, ввел в свою базу данных документы из архивов ООН в несколько миллиардов слов для обучения своей системы и т.д.

Несмотря на скромные показатели глобального рынка машинного перевода и электронных словарей, все же в ближайшее время интерес к отрасли со стороны как частных пользователей, так и корпоративных клиентов продолжает расти. Этому в первую очередь способствуют последние наработки, позволяющие существенно улучшить конечный результат. Росту рынка машинного перевода и электронных словарей способствуют глобализационные интеграционные процессы, увеличение массы перерабатываемой информации. Новым толчком к развитию этого направления стала популяризация КПК и аналогичных мобильных устройств, которые позволяют использовать подобное ПО более динамично, что приводит к увеличению сегмента продаж среди частных лиц. Для корпоративного пользователя более важны другие показатели, такие как точность перевода, интегрированность с другим ПО (например, сохранение форматирования при переводах документов, презентаций), эффективная работа с большим массивом информации.

При этом рынок продолжает оставаться небольшим, по сравнению с другими отраслями ПО. Этому в частности способствует высокая себестоимость разработок, которые требуют привлечения масштабных междисциплинарных исследований для улучшения качества. Также тормозом для развития сферы машинного перевода является наличие большого количества бесплатных словарей и переводчиков, размещенных в сети. Судя по агрессивности компаний, предлагающих бесплатные онлайн-сервисы, давление на производителей платного ПО будет только усиливаться.

Самвел Мартиросян / CNews

37-я международная выставка информационных и коммуникационных технологий Связь-2025 37-я международная выставка информационных и коммуникационных технологий Связь-2025

erid: 2W5zFHRYEHv

Рекламодатель: АКЦИОНЕРНОЕ ОБЩЕСТВО «ЭКСПОЦЕНТР»

ИНН/ОГРН: 7718033809/1027700167153