Разделы

Инновации и стартапы

ИИ и краудсорсинг: обзор сервиса по распознаванию и оцифровке документов для государства и бизнеса

В основе решения B2B-сервиса Beorg Smart Vision, резидента первого набора программы развития технологического бизнеса столичного Агентства инноваций StartHub.Moscow, лежит фирменное двухэтапное распознавание. Сначала смысловые сущности в документе выделяют нейросети, а если информация распознана с низким порогом уверенности, подключается собственный краудсорсинговый ресурс.

Платформа Beorg Smart Vision предназначена для оцифровки архивов, сложных и рукописных документов, чертежей, паспортов, а также комплектов ипотечных и трудовых документов. Технологии «Биорг» позволяют быстро размечать большие массивы данных, переводить их в машиночитаемый формат и обучать нейросети и цифровых помощников. Компания разрабатывает системы анализа и распознавания на основе искусственного интеллекта, при этом скорость занесения данных из документов в систему после сканирования составляет от 5 секунд до получаса.

Нейросети обезличивают документы с персональными данными: нарезают форму на отдельные поля, а проверенные значения вновь собирают в единый оцифрованный документ в защищенном контуре. Обработка персональных данных осуществляется по защищенному каналу (ГОСТ), компания зарегистрирована в качестве оператора персональных данных и имеет сертификаты ФСТЭК и ФСБ, а сервис внесен в реестр отечественного ПО.

Платформа Beorg Smart Vision предназначена для оцифровки архивов, сложных и рукописных документов, чертежей, паспортов и других документов


Благодаря сочетанию искусственного интеллекта и краудсорсинга качество перевода бумажных документов в цифру находится на 99%-ном уровне, без поправок на несовершенство современных технологий и периоды пиковых нагрузок. Благодаря собственному краудсорсингу компания способна полностью автоматизировать процесс распознавания и оцифровки на стороне заказчика. Более 50 000 операторов, работающих удаленно, подключены к платформе для проверки некачественных изображений, разметки дата-сетов и обучения нейросетей.

Beorg Smart Vision позволяет обрабатывать сложные для нейросетей документы — медицинские эпикризы, трудовые книжки и военные билеты, где нормальному распознаванию мешают штампы поверх текста и пятиконечные звезды, которые почти на каждой странице «слепят» нейросети.

Так, решение компании «Биорг» применялось для расшифровки записей времен Великой Отечественной войны, сделанные химическим карандашом на газетах — бумага была дефицитной. А на Сахалине пришлось работать с документами на японском языке. Для «Теле2» за 2,5 месяца был оцифрован бумажный 15-тонный архив. Рекордсменом по объему оцифровки стала «Лента», за шесть месяцев было обработано более 110 тонн документов.

В 2020 году технологический продукт «Биорг» применялся в государственной программе по оцифровке актов гражданского состояния и созданию Единого федерального реестра ЗАГС. В ходе проекта компания оцифровала более 43 миллионов актовых записей из архивов ЗАГС по всей территории РФ, в том числе для программы по выплатам семьям с детьми в период распространения коронавирусной инфекции.

В период пандемии СOVID-19 компания создала 10 тысяч удаленных рабочих мест операторов верификации данных. В 2020 и 2021 году признана «Лучшим социальным сервисом» конкурса «Лучшие социальные проекты России».

Технические особенности облачного сервиса Beorg Smart Vision

Отсканированные изображения документов поступают в облако, где их распознают конволюционно-рекуррентные нейронные сети (CNN + RNN) глубокого обучения на всех этапах обработки входящей информации. Это проприетарное ПО, собственная разработка «Биорг». Для распознавания и классификации сущностей в документах, а также устранения ошибок применяют Natural Language Processing (NLP).

К облаку подключена краудсорсинговая платформа, куда на доработку уходят документы, распознанные нейросетями с низким порогом уверенности. Операторы платформы также проводят разметку датасетов для обучения нейросетей.

При автоматической обработке документов через BeorgSmartVisionстоимость работы снижается с 2,5 до 5 раз по сравнению со стандартным ручным вводом. Решение сокращает и время обработки. Например, скорость оцифровки архивов возрастает в 3-4 раза. Пакет кадровых документов система переводит в электронный вид всего за 15-20 минут после сканирования — при этом можно обрабатывать свыше 100 комплектов одновременно. Время обработки ипотечных комплектов снижается в 2-3 раза — с 45 до 15-19 минут: все заявки обрабатываются день в день, сокращается количество отказов из-за ошибок ручного ввода данных до 30%. Самый востребованный бизнес-процесс — оцифровка паспортного разворота — занимает всего 2-5 секунд. При этом, поскольку модель услуг сервисная, оплата производится за результат, т.е. за реально обработанное количество документов, а не за установленный «пакетный» объем. А запустить процесс по оцифровке стандартных документов можно всего за 2-3 дня. Обучение сотрудников работе с ПО проводить не надо. Решение обеспечивает полную автоматизацию распознавания и выгрузки уже проверенных данных в информационную систему клиентов.

Начав с распознавания паспорта, можно быстро перейти к более сложным документам, например, кадровым или даже медицинским и техническим. Стоимость распознавания будет зависеть от сложности форм и типов бумаг. Настройка процесса распознавания даже самой сложной формы занимает 1-3 дня, работы проводятся не на стороне заказчика.

В 2020 году Агентство стратегических инициатив РФ отметило облачный сервис Beorg Smart Vision в числе лучших практик по ИИ и анализу данных, рекомендованных для тиражирования в масштабах всей страны.

В число резидентов программы StartHub.Moscow «Биорг» вошел по результатам конкурсного отбора в начале 2021 года. На первом этапе из 950 заявок от технологических предпринимателей выбрали 100 стартапов. С февраля 2021 года эти компании развивали бизнес при поддержке наставников и лидеров технологического рынка России. За время участия в программе компания заключила 12 договоров на общую сумму 60 миллионов рублей.

Программа роста и масштабирования бизнеса StartHub.Moscow предоставляет инфраструктуру и экспертные ресурсы «по подписке» без отрыва от бизнеса. Получить ее можно через конкурсный отбор, который проходит дважды в год. Вступление в Start Club на сайте https://starthub.moscow/ позволит не пропустить начало третьего набора. Из 100 компаний-участников первого набора программы StartHub.Moscow 62 показали положительный результат по приросту выручки, 25 — впервые вышли на выручку, а 43 — увеличили ее кратно. Всего за период программы компании-участницы наняли 158 сотрудников, между резидентами было заключено 17 партнерских соглашений, совершено более 10 выходов на зарубежные рынки СНГ, США, ЕС, Ближнего Востока, Китая и Гонконга, причем 8 выходов — впервые.