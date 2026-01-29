Разделы

ПО Искусственный интеллект axenix
|

Когда OCR уже не справляется: как ИИ «Элар» работает с патентными документами

Корпорация «Элар» представила результаты применения технологий искусственного интеллекта для автоматизированной обработки патентных документов — одного из наиболее сложных и требовательных классов документов с точки зрения распознавания, анализа и извлечения данных. Об этом CNews сообщили представители «Элар».

Патентная документация отличается высокой плотностью информации, сложной структурой, большим количеством таблиц, формул и графических элементов, а также строгими требованиями к точности извлечения реквизитов и контекстных связей. Именно поэтому такие документы традиционно считаются пограничным случаем для автоматизации и требуют зрелых ИИ-подходов.

Патенты: высокая плотность данных и цена ошибки

В отличие от типовых деловых или архивных документов, патенты сочетают многоуровневую структуру, разнообразие форматов представления данных и тесную взаимосвязь текста, таблиц и графики. Ошибки в извлечении ключевых сведений могут приводить не просто к потере информации, но и к искажению юридически значимого смысла документа.

Для работы с такими массивами системе недостаточно простого распознавания текста — требуется понимание структуры документа, логики его построения и смысловых связей между отдельными блоками.

Структура важнее текста: что делает ИИ

Платформа искусственного интеллекта «Элар», включающая использование больших языковых моделей (LLM), постоянно обучается. Компания, как крупнейший в стране исполнитель проектов по оцифровке и обработке научно-технических и исторических архивов имеет в своем распоряжении уникальный датасет, включающий, практически, все существующие образцы и варианты документов. Таким образом, система регулярно повышает уровень качества обработки сложных неструктурированных текстов и символов: формул, таблиц, рукописного текста и других специфических значений. В частности, для обработки патентных документов проведено отдельное обучение ИИ-модели, которая показала высокую эффективность обработки.

Подход ориентирован на интеллектуальное распознавание и структурирование патентных документов без сложной предварительной настройки под каждый отдельный массив. Система автоматически определяет тип и структуру оригинала, выявляет ключевые реквизиты, корректно обрабатывает таблицы, формулы и графические элементы, а также сохраняет логические связи между частями документа.

До 99%: машинная точность с человеческим результатом

Как аппаратная защита и биометрия помогут бизнесу построить безопасную офисную среду
Безопасность

По результатам внутреннего тестирования точность извлечения информации по ключевым полям патентных документов достигает 97%, а по отдельным категориям доходит до 99%.

Такие показатели сопоставимы с результатами ручной обработки и подтверждают, что применяемые ИИ-модели вышли на уровень практического промышленного использования в задачах повышенной сложности, где традиционные OCR-подходы и шаблонные методы демонстрируют ограниченную эффективность.

Патенты как проверка зрелости ИИ-подхода

Полученные результаты показывают не только прогресс самих ИИ-технологий, но и практическую применимость этого подхода в прикладных задачах. В первую очередь речь идёт об оптимизации затрат и повышении эффективности услуг по обработке накопленных бумажных архивов, где критичны скорость, масштаб и стабильное качество.

Кроме того, такие ИИ-механизмы могут использоваться при внедрении решений по вводу и распознаванию документов — как на этапе массовой оцифровки, так и в действующих документооборотных процессах. Таким образом, кейс с патентами демонстрирует переход от точечных экспериментов к промышленному использованию ИИ в задачах, ранее считавшихся труднодоступными для глубокой автоматизации, и задаёт основу для расширения этого подхода на другие сложные классы документов.

Подписаться на новости Короткая ссылка


Другие материалы рубрики

Российские интеграторы используют ИИ-решения, чтобы снизить себестоимость ИТ-услуг

«Аквариус» вносит в реестр отечественного ПО свою мобильную ОС. И это не Android

Обзор: Цифровизация госсектора

Впервые с 2022 года под кибератаки попало меньше половины россиян

Дмитрий Хлопов, К2Тех: Офисная среда должна быть живой ИТ-экосистемой

Linux после Торвальдса. Готов план по передаче власти над разработкой ОС после ухода основателя

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026
Показать еще

CNewsMarket

Dedicated

Подобрать выделенный сервер

От 1499 руб./месяц

Email-рассылки

Выбор сервиса для почтовых рассылок

От 0.13 руб./месяц

Kubernetes

Рассчитать стоимость кластеров Kubernetes

От 0.52 руб./месяц

DBaaS

Выбрать тариф на облачную базу данных

От 0.80 руб./месяц

Техника

Обзор наушников HUAWEI FreeClip 2: открытый качественный звук и самобытный дизайн

Обзор смартфона HUAWEI Mate X7: эффектный складной фотофлагман

Лучшие снегоуборщики для дома и дачи: хиты продаж

Показать еще

Наука

Дирижабли поднимут квантовые центры обработки данных в стратосферу — зачем это нужно?

В породах возрастом 3,3 миллиарда лет найдены древнейшие химические следы жизни

Новое исследование считает, что «хоббиты» вымерли из-за засухи
Показать еще