Разделы

Бизнес Финансовые результаты Цифровизация Бизнес-приложения Техника Импортонезависимость

Россия без FineReader: рынок OCR за год упал на четверть

Совокупная выручка российских OCR-разработчиков за 2022 г. снизилась на 24%, подсчитал CNews. Основными причинами стали уход ABBYY с рынка, а также изменения ИТ-ландшафта и переход к интегрированным продуктам.

Рейтинг десяти крупнейших российских разработчиков OCR

Российский рынок оптических систем распознавания символов (OCR) за год упал на 24%. Это следует из рейтинга 10 крупнейших российских разработчиков ПО для OCR, составленного CNews на основе данных базы Rusprofile. Совокупная выручка 10 крупнейших OCR-разработчиков в 2022 г. составила 5 млрд руб. В 2021 г. она составляла 6,5 млрд руб.

Лидером продолжает быть компания ABBYY, разработчик продуктов серии FineReader (а также продуктов FlexiCapture, PassportReader SDK, Recognition Server, Intelligent Search SDK и Smart Classifier). Компания была основана в России Давидом Яном и еще в 1990-х годах вышла на мировой рынок.

В начале 2022 г. ряд продуктов ABBYY был исключен из Единого реестра российских программ для ЭВМ и баз данных – это было связано с передачей исключительных прав на них иностранным лицам.

Весной 2022 г. после начала специальной военной операции (СВО) России на Украине ABBYY приняла решение об уходе из России. Но в 2022 г. деятельность ее российской «дочки» ООО «Айби Продакшн» еще продолжалась, хотя и в меньших объемах.

Совокупная выручка российских OCR-разработчиков в 2022 г. снизилась на четверть. Основная причина - уход ABBYY с рынка

В 2022 г. выручка компании составила 2,4 млрд руб., что почти в два раза ниже, чем было в 2021 г. Численность персонала также сократилась почти в два раза – с 736 до 396 человек. В июне 2023 г. «Айби Продакшн» начала процедуру ликвидации.

Фактически преемником ABBYY в России стала компания Content AI («Контент ИИ»). Она была создана бывшими сотрудниками ABBYY и продолжает лицензировать ее продукты. В 2022 г. выручка этой компании составила 382 млн руб., в рейтинге CNews она оказалась на третьем месте. В портфолио компании присутствуют продукты ContentReader Engine, ContentReader PDF, ContentCapture, Content AI Passport Reader SDK и Content AI Intelligent Search.

Чуть большие показатели по выручки у компании Smart Engines («Смарт Энджинс Сервис»), за год ее выручка увеличилась на 37%, она заняла второе место в рейтинге. Компания разрабатывает продукты Smart Document Engine, Smart ID Engine, Smart Code Engine и Smart IDReader.

На четвертом месте компания ITFB, представленная входящими в нее юридическими лицами ООО «АйтиЭфБи Дистрибьюшн» и ООО «АйтиЭфБи Солюшенз». За год их выручка упала на 31% и составила 264 млн руб. Число сотрудников сократилось почти в два раза – с 77 до 40. Компании разрабатывают продукт ITFB Easydoc и являлись партнером ABBYY.

Выручка основных российских разработчиков OCR в 2022 году

Название компании Выручка от продажи решений и услуг в 2022, млн. руб. с НДС Выручка от продажи решений и услуг в 2021, млн. руб. с НДС Рост выручки 2022/2021, % Прибыль от продажи решений и услуг в 2022, млн. руб. с НДС Прибыль от продажи решений и услуг в 2021, млн. руб. с НДС Количество сотрудников в 2022 Количество сотрудников в 2021 ПО, не относящееся к распознаванию документов Наличие B2B решений Наличие B2C решений ПО в реестре Минцифры РФ OCR технологии Собственные решения и сервисы
1 ABBYY (ООО "Аби Продакшн") 2 400 4 600 -48 -256 5 800 396 736 ABBYY Lingvo Да Да нет ИИ (собственный) ABBYY FlexiCapture, ABBYY PassportReader SDK, ABBYY FlexiCapture Engine, ABBYY Recognition Server, ABBYY FineReader Engine, ABBYY Intelligent Search SDK (ABBYY Compreno Products), ABBYY Smart Classifier (ABBYY Compreno Products) и др.
2 Smart Engines (ООО "Смарт Энджинс Сервис") 382,935 280 37 172 107 35 28 нет Да Нет Да ИИ (собственный) Smart Document Engine, Smart ID Engine, Smart Code Engine, Smart IDReader
3 Content AI (ООО "Контент ИИ") 382,57 - - 146 н/д 39 - Lingvo by Content AI (ABBYY Lingvo) Да Да Да ИИ (ABBYY, собственный) ContentReader Engine, ContentReader PDF, ContentCapture, Content AI PassportReader SDK, Content AI Intelligent Search (ABBYY Intelligent Search SDK, ABBYY Compreno Products)
4 ITFB (ООО "АйТиЭфБи Дистрибьюшн", ООО "Айтиэфби Солюшнз") 264 385 -31 34,2 70 40 77 Symphony Да Нет Да ИИ (собственный, "ABBYY") ITFB EASYDOC, программные продукты ABBYY (партнер компании ABBYY)
5 Beorg (ООО "Биорг") 177 110 61 5 -46 61 55 нет Да Нет Да HITL (Ручной ввод на собственной платформе), ИИ (собственный) Beorg Smart Vision, BeCut, Бискан
6 Dbrain (ООО "Дибрейн") 102 121 -15 34 85 9 3 нет Да Нет Да HITL (Ручной ввод в Яндекс.Толока), ИИ (собственный) Dbrain
7 CORRECT (ООО "Тксэт") 89 128 -31 0,266 0,198 5 13 нет Да Нет Да HITL (Ручной ввод на собственной платформе), ИИ (Yandex Vision) CORRECT: Сервис распознавания документов
8 DreamDocs (ООО "Апэрбот") 19 4,2 362 18 -3,6 13 5 нет Да Нет Да ИИ (неизвестно) DreamDocs OCR - система оптического распознавания текста
9 SOICA (ООО "Сойка") 13 12 16 2,6 2,5 12 8 нет Да Нет Да ИИ (заявляет о собственном) SOICA
10 Directum (ООО "Директум")* 1 200 1 000 24 136 196 608 524 Система Directum, Directum Cloud Да Нет Да ИИ (Tesseract OCR и др.), HITL (Ручной ввод на собственной платформе) Directum Ario One

На пятом месте компания Beorg (ООО «Биорг»), ее выручка выросла на 61% и составила 177 млн ру. Компания разрабатывает продукты Beorg Smart Visiom buCet и «Бискан». Также в рейтинг вошли компании Dbrain (ООО «Дибрейн»), Correct (ООО «Тксэт»), DreamDocs (ООО «Апэрбот») и Socia (ООО «Сойка»). Компания «Сойка» входит в группу Softline, а с недавних пор она была передана в одной из подразделений группы – SL Soft.

На 10 месте находится компания Directum (ООО «Директум»), разработчик решения Directum Ario One. Формально у компании довольно высокая выручка – 1,2 млрд руб., однако основная деятельность компании связана с системой управления документами и процессами Directum.

Импортозамещение OCR в России

2022 г. для сферы OCR охарактеризовался уходом ряда крупнейших западных компаний. Помимо ABBYY, это Kofax, IBM и EMC. В то же время российские власти взяли курс на импортозамещение иностранных продуктов. Так, в дорожную карту «Новое общесистемное ПО», подготовленную VK, «Ростелекомом», «Лабораторией Касперского» и «» в рамках соглашения с Правительством, вошли ряд OCR-продуктов.

Дмитрий Балдин, «РусГидро»: Вынужденный переход на open source приводит к увеличению поверхности кибератак
безопасность

В частности, «Контент ИИ» пообещала инвестировать 369 млн руб. в разработку программного продукта ContentCapture для автоматизации потокового ввода данных, конвертации документов и импортозамещения программных продуктов ABBYY FlexiCapture и ABBYY FineReader. В дорожной карте в качестве соисполнителя указана «Газпромнефть», однако в компании «Контент ИИ» утверждают, что «Газпромнефть» к этому проекту не имеет отношения.

Согласно дорожной карте, ITFB вложит 512 млн руб. (из них 410 млн руб. из бюджетных источников) в платформу интеллектуальной обработки документов EasyDoc. Компания «Технологии успеха» вложит 210 млн руб. в систему электронного документооборота «Иннотех.Документы», поддерживающую интеллектуальное оптическое распознавание символов.

Продукт компании «Биорг» включен в дорожную карту с указанием «Ростелекома» в качестве соавтора. Сумма инвестиций не известна. Утверждается, что «Биорг» станет кроссплатформенным продуктом с поддержкой модульности и масштабируемости.

Причины падения рынка: дело не только в уходе ABBYY

Уход ABBYY из России стал главной причиной падения общей выручки российских OCR-разработчиков, считает главный аналитик НП «Руссофт» Дмитрий Желвицкий. В предыдущие годы оборот компании превышал $200 млн, большая часть этой суммы приходилось на зарубежные продажи, которые сейчас прекратились. Кроме того, другие компании также могли продавать свои решения на рынке «недружественных стран», и с ним также могли быть проблемы, полагает Желвицкий.

Аналитик компании Navicon Иван Химий добавляет еще один фактор - растущее с каждым годом разнообразие продуктов на рынке. «Технология OCR все более популярна среди российских компаний, - говорит Химий. - Поэтому многие разработчики смежных продуктов — например, RPA (технологии автоматизации бизнес-процессов, основанные на метафорическом программном обеспечении роботов) — занялись созданием собственных OCR-решений. Так, Konica Minolta Business Solutions Russia и Robin RPA недавно выпустили модуль распознавания Robin OCR».

«В свою очередь, отечественные заказчики, наученные горьким опытом 2022 года, стали реже смотреть на лейблы и чаще - на функциональность продуктов, - добавляет аналитик. - И если раньше флагманы рынка были на порядок впереди по качеству ИТ-решений, их функциональным возможностям и клиентской базе, сейчас ситуация меняется. Даже небольшие разработчики получили доступ к крупным клиентам и потокам инвестиций — и направляют их в совершенствование продуктовой линейки. Рынок трансформируется, и в ближайшие 5-7 лет нас может ожидать полная смена отечественных OCR-лидеров».

Немцам не стоит бояться ухода Nissan, а россиянам - ABBYY

Гендиректор компании Smart Engines Владимир Арлазаров говорит, что за 2022 г. компания смогла перевыполнить свой план: ставка на собственную разработку и отсутствие в своих продуктов зависимостей от стороннего ПО полностью себя оправдала. «Если из Германии уйдет Nissan, то многие немцы этого не заметят, ведь у них есть свой Mercedes, - говорит Арлазаров. - Аналогичная ситуация и в России на рынке систем распознавания. Для замещения полнотекстовой OCR нам в срочном порядке пришлось выпустить собственный продукт (у компании была собственная технология OCR, которая использовалась в программных продуктах для распознавания паспорта, банковских карт, счетов, справки о доходах физ.лица ит.д.)».

«Постоянные утечки, кражи персональных данных заставили многих пересмотреть политику использования сервисов для их обработки, - добавили в Smart Engines. - Мошенники воспользовались моментом. Вкупе с утекшими данными это вынудило банки и финансовые компании активно внедрять наши решения по выявлению поддельных документов. А после удаления приложений банков из магазинов приложений выстрелила технология WASM, и мы с банками смогли вернуть привычную функциональность в web-приложения».

Как с помощью ad-hoc инструмента снизить расходы на внедрение аналитики
Импортонезависимость

Директор «Биорг» по работе с государственными заказчиками Илья Веригин отмечает, что 2022 г. стал для отрасли годом неопределенности. Во-первых, «черным лебедем» для заказчиков стал выход ABBYY из реестра отечественного ПО. Во-вторых, у заказчиков есть интертность: госпредприятие или ведомство не может мгновенно перейти с продления лицензии на покупку нового продукта.

Третье – это функциональность существующих решений OCR. «Объективно, в России пока нет готовых продуктов корпоративного уровня, которые заменили бы ABBYY, - считает Веригин. - Есть продукты, которые закрывают отдельные небольшие ниши (RPA, распознавание паспортов). И есть комплексный сервис, как у «Биорг», когда распознавание OCR дается с верификацией, и вендор отвечает за SLA и качество».

В Content AI напомнили, что компания была создана только в апреле 2022 г. и фактически вела деятельность неполный год, но при этом вышла на ожидаемые показатели по выручке. От результатов 2023 г. в компании ждут ещё более «амбициозных» цифр, которые должны быть достигнуты за счет активной перенастройка ИТ-ландшафта и импортозамещения.

Будущее рынка OCR

Директор по продуктам Soica компании Sl Soft Виктор Горюнов напоминает о структурных изменениях на ИТ-рынке, вследствие которых может казаться, что происходит падение интереса к OCR. «Технологичные компании, как и их продукты, укрупняются, поэтому долю классических OCR-решений становится сложнее посчитать, - говорит Горюнов. - Так, с 1 июля Soica стала частью комплексной продуктовой линейки SL Soft, закрывающей все потребности заказчиков в области бизнес-приложений».

«Кроме того, можно сказать о нераскрытом потенциале OCR-рынка, поскольку большинство игроков концентрируется на шаблонной обработке и масштабировании типовых кейсов: анкеты, кадровая и финансовая документация, - добавили в SL Soft. - Большое количество процессов еще не изучено и не предложено к автоматизации компаниями-разработчиками. Новые направления, например, техническая, судебная и другая специфическая документация – значительно увеличат объем рынка. Если говорить о более отдаленном будущем, то по-настоящему прорывным станет появление технологий качественного распознавания любых рукописных текстов и электронной реставрации документов».

Дополнение 1

После публикации в компании Sl Soft заявили CNews, что продукт Soica использует собственный движок искусственного интеллекта, а не Yandex.Vision. В то же время Soica указана в партнерах на сайте Yandex.Vision.

Дополнение 2

После публикации в группе компаний ITFB заявили CNews, что помимо учитываемых в рейтинге юридических лиц - «АйтиЭфБи Дистрибьюшн» и «АйтиэфБи Солюшенз» - в группу компаний также входят ООО «Тср Тех» и ООО «АйтиЭфБи Групп». Соответственно, по итогам 2022 г. общая выручка группы компаний увеличилась на 47% и составила 1,67 млрд руб., а численность персонала увеличилась на 13% с 226 до 255. В то же время в рейтинге CNews учитывались только те юридические лица, чьи продукты включены (или были включены) в Единый реестр российских программ для ЭВМ и баз данных.

Игорь Королев