В России впервые создали мобильное ПО для распознавания текста с любой поверхности. Видео

Интеграция Бизнес-приложения Техника
мобильная версия
, Текст: Валерия Шмырова

Компания ABBYY выпустила набор инструментов для разработчиков, который позволит им писать приложения на основе ABBYY Real-Time Recognition – технологии распознавания текста, захваченного камерой практически с любой поверхности. Технология позволяет создать приложения весом до 50 МБ, которым будет хватать ресурсов смартфона. Распознанный текст иностранного меню или вывески можно сразу перевести на другой язык.


Технология ABBYY Real-Time Recognition

Компания ABBYY представила технологию ABBYY Real-Time Recognition (RTR), предназначенную для распознавания текста на различных поверхностях. Технология может конвертировать в машиночитаемый текст документы, этикетки, показания счетчиков, автомобильные номера и т. п. Возможно также распознавание текста с экранов различных устройств.

По словам Дмитрия Шушкина, заместителя генерального директора ABBYY Россия, это «единственный продукт в России, который «на лету» находит и распознает тексты на любых документах и поверхностях предметов». В компании сообщают, что технологию уже применяют в государственном секторе, сфере логистики и в телекоме в Чехии, Бразилии, Китае, Шри-Ланке и Камбодже, а в России она вызывает интерес со стороны банковских, страховых компаний и ритейла.

У ABBYY есть подобная технология, но рассчитанная на ресурсы ПК. Новизна ABBYY RTR заключается в том, что она рассчитана на создание приложений, которые занимают до 50 МБ места и используют ограниченную оперативную память мобильного устройства.

Как работает технология

Чтобы распознать текст, камеру устройства, на котором установлена ABBYY RTR, следует навести на объект с надписью. Технология захватит изображение и распознает символы. Делать фото не нужно – ABBYY RTR срабатывает при простом наведении камеры. Разработчики обещают достаточно высокую точность распознавания, так как технология анализирует не один, а несколько кадров, а потом сопоставляет результаты. Кроме того, захват изображения в видеопотоке исключает влияние дефектов фотосъемки на точность распознавания. Это особенно актуально для распознавания документов с бликами и голограммами.

ABBYY Real-Time Recognition распознает текст практически с любых поверхностей

В процессе распознавания захваченный символ сличается с буквами и цифрами. Кроме того, вся распознаваемая комбинация сопоставляется со словарем буквенных и числовых выражений, характерных, например, для документов. Это помогает избежать самых распространенных ошибок, типа «и» вместо «й», а также не путать похожие по очертаниям буквы и цифры, допустим, «8» и «В». Для облегчения распознавания в видеопотоке отсеиваются лишние элементы. Для повышения точности полученный результат проходит проверку формата. Например, дата должна соответствовать формату 00.00.0000.

Процедура распознавания не требует подключения к интернету, поскольку она проходит на самом устройстве, а не на внешних серверах. ABBYY отмечает, что это снижает риск утечки данных, что делает ABBYY RTR подходящим для организаций, где безопасность информации критически важна. Отвечая на вопрос CNews, в компании выразили уверенность, что технология подходит для госорганов, финансовых, страховых и кредитных организаций.

Технология распознает тексты на 63 языках, с 9 языков возможен моментальный перевод на английский и обратно. В число этих языков входят индонезийский, испанский, китайский, немецкий, польский, португальский (бразильский), русский, французский и японский. Словари ABBYY RTR предназначены для перевода общей лексики. При посредничестве английского языка возможен опосредованный перевод с любого из перечисленных языков на любой другой из них же. Например, с испанского слово переводится на английский, а потом полученный результат переводится на японский, чтобы в итоге получился перевод с испанского на японский.

Приложения на основе ABBYY RTR

ABBYY создала набор инструментов ABBYY Real-Time Recognition SDK, который позволит сторонним разработчикам создать на основе этой технологии приложения для iOS и Android. ABBYY предоставляет разработчикам лицензию на использование SDK в продукте клиента. Стоимость варьируется от задач конкретного разработчика.

ABBYY считает, что этот инструментарий будет востребован в сфере обслуживания. Например, с его помощью можно создать банковское приложение, которое буде извлекать машиночитаемую информацию с поверхности документов и автоматически заполнять соответствующие поля в электронных бланках. Это приложение может быть использовано как сотрудниками банка, которые вносят информацию в компьютер, так и клиентами, которые подают документы и заполняют формы удаленно.

Помимо банков такое приложение может быть востребовано в страховых компаниях, торговых сетях, гостиницах и отелях, в сфере телекоммуникаций. Использование подобной программы позволило бы обходиться без ручного ввода данных при инвентаризациях или формировании отчетности о командировке.

Поскольку ABBYY RTR оперирует несколькими языками, приложения на ее основе могут быть использованы международными организациями. Наконец, мобильные приложения на базе этой технологии пригодятся обычным пользователям в быту, считает компания. В поездке с помощью такого приложения можно моментально перевести меню и вывески, написанные на иностранных языках, для этого достаточно будет навести на них камеру смартфона.