Разделы

Цифровизация Бизнес-приложения

В Петербурге разработана начальная версия OCR-системы с открытым кодом

Группа сотрудников факультета Прикладной Математики-Процессов Управления Санкт-Петербургского государственного университета при поддержке компании Digital Design разработала начальную версию продукта с открытым кодом для распознавания графических изображений "Система распознавания текстов".

Идея разработать открытую программу распознавания текста возникла на факультете ПМ-ПУ как продолжение научных исследований, ведущихся на факультете. «Практическое значение этой идеи очевидно, - утверждает директор Департамента развития и исследований Digital Design Владимир Габриель. - Несмотря на наличие большого количества программных продуктов для распознавания текста (Fine Reader фирмы ABBYY, CuneiForm фирмы Cognitive Technologies, Caere OmniPage), на рынке нет программ с открытым кодом, позволяющих встраивать функции распознавания текста в программные системы, разработанные независимыми производителями. И наша компания видит для себя определенные перспективы в поддержке реализации этих исследований и призывает бизнес-партнеров присоединиться к проекту».

В октябре 2003 года инициативная группа преподавателей факультета прикладной математики и процессов управления начали работу над проектом. В ходе реализации проекта его участникам удалосьљ добиться определенных успехов в разработке и отладке рабочих алгоритмов и создать прообраз ядра программной системы, работу которого демонстрирует сетевая версия, доступная на сайте проекта. Система распознает графическое изображение и тексты, напечатанных некоторым ограниченным набором стандартных шрифтов, при условии хорошего разрешения изображений. В результате работы система формирует файл, содержащий распознанный текст. Система имеет возможность расширения за счет подключения новых, ранее неизвестных ей шрифтов.