Владимир Арлазаров

Владимир Арлазаров:
Распознавание визиток и штрих-кодов на мобильных устройствах – это не предел

Молодая российская компания Smart Engines вывела на рынок инновационный продукт – технологии распознавания документов с помощью мобильного телефона. Решение позволяет быстро и безопасно не только заполнять всевозможные документы в режиме реального времени, но и идентифицировать клиента. О том, какие технологии легли в его основу и как его использование способно изменить рынок услуг банков и страховых компаний, в интервью CNews рассказал Владимир Арлазаров, генеральный директор Smart Engines.

CNews: Smart Engines – новый игрок на рынке распознавания, на котором работает не так много компаний в мире и всего несколько в России. Что вы предлагаете рынку?

Владимир Арлазаров: Smart Engines – это стартап, работающий в сфере, которую еще никто серьезно не затрагивал. Мы предлагаем технологии распознавания с помощью мобильного телефона. Сегодня с помощью мобильных устройств решается широчайший спектр задач. Однако, в сфере распознавания все ограничивается считыванием визиток или штрих-кодов, хотя очевидно, что это не предел возможностей.

Еще 4-5 лет назад мобильный телефон существенно уступал по производительности  любому компьютеру, но обладал неплохой видеокамерой. Мы решили, что работая не с отдельными изображениями, а с их последовательностями, можно создать принципиально новые технологии распознавания. Так появился стартап Smart Engines, который некоторое время занимался разработкой специализированных решений в области OCRдля европейских и американских компаний.

Полтора года назад мы представили свой первый готовый продукт: встраиваемую библиотеку распознавания машиночитаемой зоны (MRZ) на документах  с помощью мобильного телефона для iOSи Android. Этот продукт и сейчас является нашим основным предложением для западного и азиатского рынков. В начале этого года, когда я присоединился к Smart Engines, было принято решение о выходе на отечественный рынок и выпуске линейки продуктов для России.

Сегодня у нас есть готовые библиотеки распознавания  паспорта гражданина РФ, данных банковских карт, водительских удостоверений, машиночитаемой зоны (MRZ-строки)  на паспортно-визовых документах, которые можно использовать на всех программных и аппаратных платформах. Кроме этого мы ведем непрерывные исследовательские работы по расширению списка документов.

Распознавание паспорта РФ на мобильном телефоне с помощью Smart PassportReader

CNews: В чем отличие предлагаемых вами решений от уже представленных на рынке?

Владимир Арлазаров: Как происходит распознавание изображений со смартфонов сегодня? Возьмем стандартную схему. Человек сфотографировал паспорт, отправил изображение на сервер для обработки и через некоторое время получил ответ. Отметим два существенных неудобства подобной схемы. Во-первых, для того чтобы передать 8-мегапиксельное изображение, нам необходим хороший канал связи, за который в общем случае нужно заплатить. Во-вторых, процесс передачи и обработки занимает какое-то время, по завершении которого человек не всегда получает правильный ответ – например, распознаванию могут помешать блики от освещения снимка. Таким образом, получается, что мы передаем изображение своего паспорта по каким-то – открытым или закрытым – каналам связи на непонятно кому принадлежащий сервер, ждем и в конечном итоге не всегда получаем правильный ответ.

Что предлагаем мы? Пусть, для совершения какой-либо операции вам или сотруднику банка или страховой компании надо ввести ваши паспортные данные. Заводить их вручную на мобильном устройстве очень неудобно. А хранить на телефоне крайне небезопасно. Другое дело, если вы можете поднести камеру мобильного телефона к паспорту, в течение секунды распознать данные и передать их по назначению.

Еще одна сфера применения решения. Подделать паспортные данные как электронную запись в базе данных существенно проще, чем сам паспорт. Если злоумышленник каким-то образом записал ваши паспортные данные, он может получить доступ к множеству банковских и страховых онлайн-сервисов без вашего ведома. Совсем другое дело, если для подтверждения транзакций требуется не просто ввести паспортные данные, а предъявить паспорт.

Технологии, которые мы предлагаем, обеспечивают распознавание непосредственно на мобильном устройстве, то есть данные никуда не отправляются. Пользователь видит, что происходит с изображением его документов прямо на экране. Если распознаванию мешают блики, система скажет об этом, и человек сможет немного изменить расположение паспорта. При этом распознавание занимает 1-2 сек, а его точность благодаря обработке видеопотока выше, чем при обработке одиночного изображения хорошего качества.

Вообще, наш подход заключается в том, что в приложениях и сервисах должны двигаться не картинки, а данные. Но эти данные должны нести в себе подтверждение того, что они получены с объекта. Например, банковская программа может хранить хеш-строчку, которой будет достаточно для проверки паспортных данных или данных банковской карты. Но при этом по хеш-строчке невозможно восстановить сами данные – она служит лишь для того, чтобы, зная алгоритм, сравнить с ней поступающую информацию. Например, такой подход широко применяется авиакомпаниями, которые работают с машиночитаемой зоной паспорта (MRZ). Есть специальные алгоритмы, которые описывают, как она формируется. И это позволяет считывать ровно 2 или 3 строчки со всего документа и не хранить подробные данные.

CNews: Какие еще возможности вы готовы предложить российскому рынку?

Владимир Арлазаров: Мы предлагаем банкам технологии распознавания данных пластиковых банковских карт – номера, срока действия и владельца. Это могут быть карты, персонализированные эмбоссированием (выдавливанием символов) и методом индент-печати (вдавливанием символов). Еще одно решение – распознавание российских водительских прав. Эта возможность более интересна страховым компаниям.

Сегодня в России активно развивается сегмент рынка, на котором единственным способом общения с клиентом являются мобильные приложения. Это и мобильные банки, и микрофинансовые организации, и страховые компании, которые не имеют традиционных офисов и взаимодействуют с заказчиками исключительно через интернет. Как им проверить, что клиент действительно показал все необходимые документы, а не просто создал их данные, и при этом обеспечить безопасность их передачи и хранения? Мы предлагаем именно такие технологии. С их помощью покупка подарков на Новый год, оформление кредита, перевод денег, оплата счетов, страхование машины превращаются в простые и удобные процедуры, которые можно осуществлять на мобильном телефоне. В нем есть все – одна или даже две камеры, производительный процессор, операционная система,  достаточно оперативной и постоянной памяти (сегодня нет никаких технологических препятствий, чтобы хранить локально на телефоне даже базы данных). Наши технологии могут работать и в отсутствие сети, а передачу данных осуществлять, например, в зоне WiFi.

Распознавание данных пластиковой карты на мобильном телефоне на примере бонусной карты


В страховом бизнесе сейчас все большую популярность набирает использование электронных полисов. С помощью наших технологий человек может в мобильном приложении распознать свои права, паспорт, предыдущий полис, сфотографировать машину, создать пакет документов, отправить его и получить новый полис ОСАГО.

При оформлении КАСКО мы предлагаем автоматизировать процедуру осмотра – дать агенту инструмент, с помощью которого он сможет собрать максимум информации: распознать паспорт, права, свое удостоверение, банковскую карту для того, чтобы осуществить платеж, номерные знаки и  VINавтомобиля. Кроме того, можно обеспечить контроль съемки автомобиля, записывая с видеопотоком не только сами кадры, но и показания гироскопа, акселерометра и GPS.

CNews: Какие еще примеры автоматизации фронт-офиса и бэк-офиса вы можете привести?

Владимир Арлазаров: Например, когда человек приходит в банк или страховую компанию, он предъявляет паспорт или права. Эти документы можно отсканировать, а можно использовать для их распознавания web-камеру. И это значительно быстрее и дешевле.

И, конечно, наши решения универсальны и способны работать в бэк-офисе, распознавая паспорт, водительские права, на ARM, x86 архитектурах, под управлением Windows, Linux, MacOS, Solaris. Хочется отметить, что нам удалось достаточно универсально решить задачу типизации массива сканов и фотокопий документов. Эти серверные решения мы предлагаем банкам при создании электронных архивов и страховым компаниям в части обработки документации по убыткам.

Распознавание разворота паспорта РФ с помощью веб-камеры и Smart PassportReader

CNews: Расскажите подробнее о разработанных вами технологиях.

Владимир Арлазаров: Что представляет собой мобильное устройство? С одной стороны, это многоядерный вычислительный процессор с архитектурой ARM, с другой –  камера с возможностью захвата либо одной картинки с высоким разрешением, либо серии – видеопотока – картинок с низким разрешением. Что лучше – захватить одну картинку в хорошем разрешении и потом долго ее обрабатывать или серию картинок в низком разрешении и обработать их вместе? Мы апологеты второго подхода. Мы создали технологию, которая способна достаточно качественно и быстро распознавать кадры в низком разрешении, и математически описали последовательность кадров так, чтобы связать их в единое целое и получить результат значительно лучше, чем на каждом кадре в отдельности. Мы называем это «Проинтегрировать результаты распознавания».

CNews: Какой точности распознавания удалось добиться в результате интеграции результатов?

Владимир Арлазаров: Точность распознавания в видеопотоке зависит от времени распознавания. Сейчас мы исходим из того, что распознавать паспорт более 2 сек нельзя. Если говорить о точности распознавания, то для серии и номера паспорта РФ это более 99%, а для ФИО – более 95%.

CNews: Есть ли подобные технологии у ваших конкурентов?

Владимир Арлазаров: Наши конкуренты работают не с видеопотоком, а с одной картинкой. А картинка, полученная с мобильного телефона, часто хуже, чем со сканера, что усложняет ее распознавание.

В процессе создания решения мы отказались от нескольких стереотипов, которые довлели над системами распознавания предыдущих лет. Например, все они сначала преобразуют цветную картинку в черно-белую – это так называемый процесс бинаризации. Мы смогли оптимизировать структуру нейронных сетей и подобрать правильные алгоритмы таким образом, чтобы, не теряя скорости, решать задачу в цвете. И тем самым существенно увеличили качество, не потеряв при этом в скорости.

Поскольку при обработке видеопотока с мобильного устройства мы имеем дело с трехмерной сценой, а сама съемка происходит в неконтролируемых условиях, возникает проблема освещения и проективного искажения документа. И эту задачу мы тоже смогли решить, причем с использованием очень быстрых алгоритмов, заточенных под различные архитектуры.

Поскольку распознавание происходит очень быстро, энергопотребление процессора минимально. Заряда современного мобильного телефона хватает на то, чтобы автономно работать весь день, что является критичным, например, для мобильных представителей банков и страховых компаний.

CNews: Какова политика лицензирования ваших продуктов?

Владимир Арлазаров: Мы предлагаем 3 вида лицензий на наши продукты. Это лицензия на определенное число устройств (сканеров, камер), подписка, предполагающая оплату за пользование решением, и нелимитированная лицензия. В зависимости от  поставленных задач, наши клиенты могут выбрать то, что им наиболее выгодно.

CNews: Можно ли как-то оценить эффективность вашего решения?

Владимир Арлазаров: Эффективность решения складывается из повышения уровня удовлетворенности клиентов и оптимизации работы персонала. У сотрудников банка или страховой компании появляется время на выполнение более важных задач, тесное взаимодействие с клиентом. Кроме того, использование наших технологий способствует снижению мошенничества, повышению уровня безопасности банковских операций.

Думаю, такое решение может найти себе применение в сфере безопасности в более широком смысле. Например, если предъявленный посетителем паспорт распознан как документ преступника, система может автоматически предупредить об этом сотрудника банка и вызвать полицию.

CNews: Насколько сложно добавить к предлагаемому вами списку новые документы?

Владимир Арлазаров: Это зависит от документа. Если речь идет о стандартных печатных формах, то это несложно. Сегодня мы как раз занимаемся вопросом распознавания СТС и ПТС. Есть целый ряд документов, которые заполняются от руки, например, свидетельство о рождении. И их распознавание – это задача будущего. Также мы можем научить систему распознавать документы на любом языке.

CNews: Существуют ли уже примеры использования вашего решения?

Владимир Арлазаров:  Кейсов много, но, к сожалению, большинство из них закрыты. Один из наших клиентов – японская компания создала и внедрила систему автоматического заполнения бланков Tax Free. Теперь ее клиенты избавлены от необходимости вручную вносить свои паспортные данные – это делается мгновенно при помощи мобильного телефона. Еще один пример – ресурс для бронирования гостиниц, где клиент может автоматически заполнить форму со своими личными данными.

На Западе, особенно после парижских терактов, наметился взрывной рост интереса к технологии со стороны госсектора. Можно загрузить в мобильное устройство базу данных в зашифрованном виде и оперативно проверять легальность паспортов даже там, где существуют проблемы с доступом в интернет. При этом в случае утери этого устройства преступники не получат никаких преимуществ – ведь на нем нет персональных данных.

CNews: Сколько времени требуется, чтобы интегрировать ваши технологии? Насколько это сложно?

Владимир Арлазаров:  Использовать наши библиотеки распознавания могут как разработчики программного обеспечения и компании-интеграторы, так и конечные заказчики. По нашему опыту, встраивание готовых библиотек занимает в среднем 1-2 часа. Как уже было сказано выше, все наши технологии многоплатформенные и работают на большинстве распространенных операционных систем для мобильных устройств, десктопов, серверов и основных аппаратных платформах.

Вернуться на главную страницу обзора