Россия без FineReader: рынок OCR за год упал на четверть
Совокупная выручка российских OCR-разработчиков за 2022 г. снизилась на 24%, подсчитал CNews. Основными причинами стали уход ABBYY с рынка, а также изменения ИТ-ландшафта и переход к интегрированным продуктам.
Рейтинг десяти крупнейших российских разработчиков OCR
Российский рынок оптических систем распознавания символов (OCR) за год упал на 24%. Это следует из рейтинга 10 крупнейших российских разработчиков ПО для OCR, составленного CNews на основе данных базы Rusprofile. Совокупная выручка 10 крупнейших OCR-разработчиков в 2022 г. составила 5 млрд руб. В 2021 г. она составляла 6,5 млрд руб.
Лидером продолжает быть компания ABBYY, разработчик продуктов серии FineReader (а также продуктов FlexiCapture, PassportReader SDK, Recognition Server, Intelligent Search SDK и Smart Classifier). Компания была основана в России Давидом Яном и еще в 1990-х годах вышла на мировой рынок.
В начале 2022 г. ряд продуктов ABBYY был исключен из Единого реестра российских программ для ЭВМ и баз данных – это было связано с передачей исключительных прав на них иностранным лицам.
Весной 2022 г. после начала специальной военной операции (СВО) России на Украине ABBYY приняла решение об уходе из России. Но в 2022 г. деятельность ее российской «дочки» ООО «Айби Продакшн» еще продолжалась, хотя и в меньших объемах.
В 2022 г. выручка компании составила 2,4 млрд руб., что почти в два раза ниже, чем было в 2021 г. Численность персонала также сократилась почти в два раза – с 736 до 396 человек. В июне 2023 г. «Айби Продакшн» начала процедуру ликвидации.
Фактически преемником ABBYY в России стала компания Content AI («Контент ИИ»). Она была создана бывшими сотрудниками ABBYY и продолжает лицензировать ее продукты. В 2022 г. выручка этой компании составила 382 млн руб., в рейтинге CNews она оказалась на третьем месте. В портфолио компании присутствуют продукты ContentReader Engine, ContentReader PDF, ContentCapture, Content AI Passport Reader SDK и Content AI Intelligent Search.
Чуть большие показатели по выручки у компании Smart Engines («Смарт Энджинс Сервис»), за год ее выручка увеличилась на 37%, она заняла второе место в рейтинге. Компания разрабатывает продукты Smart Document Engine, Smart ID Engine, Smart Code Engine и Smart IDReader.
На четвертом месте компания ITFB, представленная входящими в нее юридическими лицами ООО «АйтиЭфБи Дистрибьюшн» и ООО «АйтиЭфБи Солюшенз». За год их выручка упала на 31% и составила 264 млн руб. Число сотрудников сократилось почти в два раза – с 77 до 40. Компании разрабатывают продукт ITFB Easydoc и являлись партнером ABBYY.
Название компании | Выручка от продажи решений и услуг в 2022, млн. руб. с НДС | Выручка от продажи решений и услуг в 2021, млн. руб. с НДС | Рост выручки 2022/2021, % | Прибыль от продажи решений и услуг в 2022, млн. руб. с НДС | Прибыль от продажи решений и услуг в 2021, млн. руб. с НДС | Количество сотрудников в 2022 | Количество сотрудников в 2021 | ПО, не относящееся к распознаванию документов | Наличие B2B решений | Наличие B2C решений | ПО в реестре Минцифры РФ | OCR технологии | Собственные решения и сервисы | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | ABBYY (ООО "Аби Продакшн") | 2 400 | 4 600 | -48 | -256 | 5 800 | 396 | 736 | ABBYY Lingvo | Да | Да | нет | ИИ (собственный) | ABBYY FlexiCapture, ABBYY PassportReader SDK, ABBYY FlexiCapture Engine, ABBYY Recognition Server, ABBYY FineReader Engine, ABBYY Intelligent Search SDK (ABBYY Compreno Products), ABBYY Smart Classifier (ABBYY Compreno Products) и др. |
2 | Smart Engines (ООО "Смарт Энджинс Сервис") | 382,935 | 280 | 37 | 172 | 107 | 35 | 28 | нет | Да | Нет | Да | ИИ (собственный) | Smart Document Engine, Smart ID Engine, Smart Code Engine, Smart IDReader |
3 | Content AI (ООО "Контент ИИ") | 382,57 | - | - | 146 | н/д | 39 | - | Lingvo by Content AI (ABBYY Lingvo) | Да | Да | Да | ИИ (ABBYY, собственный) | ContentReader Engine, ContentReader PDF, ContentCapture, Content AI PassportReader SDK, Content AI Intelligent Search (ABBYY Intelligent Search SDK, ABBYY Compreno Products) |
4 | ITFB (ООО "АйТиЭфБи Дистрибьюшн", ООО "Айтиэфби Солюшнз") | 264 | 385 | -31 | 34,2 | 70 | 40 | 77 | Symphony | Да | Нет | Да | ИИ (собственный, "ABBYY") | ITFB EASYDOC, программные продукты ABBYY (партнер компании ABBYY) |
5 | Beorg (ООО "Биорг") | 177 | 110 | 61 | 5 | -46 | 61 | 55 | нет | Да | Нет | Да | HITL (Ручной ввод на собственной платформе), ИИ (собственный) | Beorg Smart Vision, BeCut, Бискан |
6 | Dbrain (ООО "Дибрейн") | 102 | 121 | -15 | 34 | 85 | 9 | 3 | нет | Да | Нет | Да | HITL (Ручной ввод в Яндекс.Толока), ИИ (собственный) | Dbrain |
7 | CORRECT (ООО "Тксэт") | 89 | 128 | -31 | 0,266 | 0,198 | 5 | 13 | нет | Да | Нет | Да | HITL (Ручной ввод на собственной платформе), ИИ (Yandex Vision) | CORRECT: Сервис распознавания документов |
8 | DreamDocs (ООО "Апэрбот") | 19 | 4,2 | 362 | 18 | -3,6 | 13 | 5 | нет | Да | Нет | Да | ИИ (неизвестно) | DreamDocs OCR - система оптического распознавания текста |
9 | SOICA (ООО "Сойка") | 13 | 12 | 16 | 2,6 | 2,5 | 12 | 8 | нет | Да | Нет | Да | ИИ (заявляет о собственном) | SOICA |
10 | Directum (ООО "Директум")* | 1 200 | 1 000 | 24 | 136 | 196 | 608 | 524 | Система Directum, Directum Cloud | Да | Нет | Да | ИИ (Tesseract OCR и др.), HITL (Ручной ввод на собственной платформе) | Directum Ario One |
На пятом месте компания Beorg (ООО «Биорг»), ее выручка выросла на 61% и составила 177 млн ру. Компания разрабатывает продукты Beorg Smart Visiom buCet и «Бискан». Также в рейтинг вошли компании Dbrain (ООО «Дибрейн»), Correct (ООО «Тксэт»), DreamDocs (ООО «Апэрбот») и Socia (ООО «Сойка»). Компания «Сойка» входит в группу Softline, а с недавних пор она была передана в одной из подразделений группы – SL Soft.
На 10 месте находится компания Directum (ООО «Директум»), разработчик решения Directum Ario One. Формально у компании довольно высокая выручка – 1,2 млрд руб., однако основная деятельность компании связана с системой управления документами и процессами Directum.
Импортозамещение OCR в России
2022 г. для сферы OCR охарактеризовался уходом ряда крупнейших западных компаний. Помимо ABBYY, это Kofax, IBM и EMC. В то же время российские власти взяли курс на импортозамещение иностранных продуктов. Так, в дорожную карту «Новое общесистемное ПО», подготовленную VK, «Ростелекомом», «Лабораторией Касперского» и «1С» в рамках соглашения с Правительством, вошли ряд OCR-продуктов.

В частности, «Контент ИИ» пообещала инвестировать 369 млн руб. в разработку программного продукта ContentCapture для автоматизации потокового ввода данных, конвертации документов и импортозамещения программных продуктов ABBYY FlexiCapture и ABBYY FineReader. В дорожной карте в качестве соисполнителя указана «Газпромнефть», однако в компании «Контент ИИ» утверждают, что «Газпромнефть» к этому проекту не имеет отношения.
Согласно дорожной карте, ITFB вложит 512 млн руб. (из них 410 млн руб. из бюджетных источников) в платформу интеллектуальной обработки документов EasyDoc. Компания «Технологии успеха» вложит 210 млн руб. в систему электронного документооборота «Иннотех.Документы», поддерживающую интеллектуальное оптическое распознавание символов.
Продукт компании «Биорг» включен в дорожную карту с указанием «Ростелекома» в качестве соавтора. Сумма инвестиций не известна. Утверждается, что «Биорг» станет кроссплатформенным продуктом с поддержкой модульности и масштабируемости.
Причины падения рынка: дело не только в уходе ABBYY
Уход ABBYY из России стал главной причиной падения общей выручки российских OCR-разработчиков, считает главный аналитик НП «Руссофт» Дмитрий Желвицкий. В предыдущие годы оборот компании превышал $200 млн, большая часть этой суммы приходилось на зарубежные продажи, которые сейчас прекратились. Кроме того, другие компании также могли продавать свои решения на рынке «недружественных стран», и с ним также могли быть проблемы, полагает Желвицкий.
Аналитик компании Navicon Иван Химий добавляет еще один фактор - растущее с каждым годом разнообразие продуктов на рынке. «Технология OCR все более популярна среди российских компаний, - говорит Химий. - Поэтому многие разработчики смежных продуктов — например, RPA (технологии автоматизации бизнес-процессов, основанные на метафорическом программном обеспечении роботов) — занялись созданием собственных OCR-решений. Так, Konica Minolta Business Solutions Russia и Robin RPA недавно выпустили модуль распознавания Robin OCR».
«В свою очередь, отечественные заказчики, наученные горьким опытом 2022 года, стали реже смотреть на лейблы и чаще - на функциональность продуктов, - добавляет аналитик. - И если раньше флагманы рынка были на порядок впереди по качеству ИТ-решений, их функциональным возможностям и клиентской базе, сейчас ситуация меняется. Даже небольшие разработчики получили доступ к крупным клиентам и потокам инвестиций — и направляют их в совершенствование продуктовой линейки. Рынок трансформируется, и в ближайшие 5-7 лет нас может ожидать полная смена отечественных OCR-лидеров».
Немцам не стоит бояться ухода Nissan, а россиянам - ABBYY
Гендиректор компании Smart Engines Владимир Арлазаров говорит, что за 2022 г. компания смогла перевыполнить свой план: ставка на собственную разработку и отсутствие в своих продуктов зависимостей от стороннего ПО полностью себя оправдала. «Если из Германии уйдет Nissan, то многие немцы этого не заметят, ведь у них есть свой Mercedes, - говорит Арлазаров. - Аналогичная ситуация и в России на рынке систем распознавания. Для замещения полнотекстовой OCR нам в срочном порядке пришлось выпустить собственный продукт (у компании была собственная технология OCR, которая использовалась в программных продуктах для распознавания паспорта, банковских карт, счетов, справки о доходах физ.лица ит.д.)».
«Постоянные утечки, кражи персональных данных заставили многих пересмотреть политику использования сервисов для их обработки, - добавили в Smart Engines. - Мошенники воспользовались моментом. Вкупе с утекшими данными это вынудило банки и финансовые компании активно внедрять наши решения по выявлению поддельных документов. А после удаления приложений банков из магазинов приложений выстрелила технология WASM, и мы с банками смогли вернуть привычную функциональность в web-приложения».

Директор «Биорг» по работе с государственными заказчиками Илья Веригин отмечает, что 2022 г. стал для отрасли годом неопределенности. Во-первых, «черным лебедем» для заказчиков стал выход ABBYY из реестра отечественного ПО. Во-вторых, у заказчиков есть интертность: госпредприятие или ведомство не может мгновенно перейти с продления лицензии на покупку нового продукта.
Третье – это функциональность существующих решений OCR. «Объективно, в России пока нет готовых продуктов корпоративного уровня, которые заменили бы ABBYY, - считает Веригин. - Есть продукты, которые закрывают отдельные небольшие ниши (RPA, распознавание паспортов). И есть комплексный сервис, как у «Биорг», когда распознавание OCR дается с верификацией, и вендор отвечает за SLA и качество».
В Content AI напомнили, что компания была создана только в апреле 2022 г. и фактически вела деятельность неполный год, но при этом вышла на ожидаемые показатели по выручке. От результатов 2023 г. в компании ждут ещё более «амбициозных» цифр, которые должны быть достигнуты за счет активной перенастройка ИТ-ландшафта и импортозамещения.
Будущее рынка OCR
Директор по продуктам Soica компании Sl Soft Виктор Горюнов напоминает о структурных изменениях на ИТ-рынке, вследствие которых может казаться, что происходит падение интереса к OCR. «Технологичные компании, как и их продукты, укрупняются, поэтому долю классических OCR-решений становится сложнее посчитать, - говорит Горюнов. - Так, с 1 июля Soica стала частью комплексной продуктовой линейки SL Soft, закрывающей все потребности заказчиков в области бизнес-приложений».
«Кроме того, можно сказать о нераскрытом потенциале OCR-рынка, поскольку большинство игроков концентрируется на шаблонной обработке и масштабировании типовых кейсов: анкеты, кадровая и финансовая документация, - добавили в SL Soft. - Большое количество процессов еще не изучено и не предложено к автоматизации компаниями-разработчиками. Новые направления, например, техническая, судебная и другая специфическая документация – значительно увеличат объем рынка. Если говорить о более отдаленном будущем, то по-настоящему прорывным станет появление технологий качественного распознавания любых рукописных текстов и электронной реставрации документов».
Дополнение 1
После публикации в компании Sl Soft заявили CNews, что продукт Soica использует собственный движок искусственного интеллекта, а не Yandex.Vision. В то же время Soica указана в партнерах на сайте Yandex.Vision.
Дополнение 2
После публикации в группе компаний ITFB заявили CNews, что помимо учитываемых в рейтинге юридических лиц - «АйтиЭфБи Дистрибьюшн» и «АйтиэфБи Солюшенз» - в группу компаний также входят ООО «Тср Тех» и ООО «АйтиЭфБи Групп». Соответственно, по итогам 2022 г. общая выручка группы компаний увеличилась на 47% и составила 1,67 млрд руб., а численность персонала увеличилась на 13% с 226 до 255. В то же время в рейтинге CNews учитывались только те юридические лица, чьи продукты включены (или были включены) в Единый реестр российских программ для ЭВМ и баз данных.