Разделы

Бизнес Цифровизация Документооборот

Как ИИ помогает автоматизировать работу с документами

Обработка документов долгое время оставалась узким местом при цифровизации и автоматизации бизнес-процессов компаний. Традиционные системы на основе правил оказывались слишком хрупкими, поскольку сталкивались с большим разнообразием неструктурированных документов. Это разнообразие форм, форматов и формулировок не давало автоматизировать процесс полноценно. 

С появлением искусственного интеллекта работа с документами перешла на новый технологический и процессный уровень, а в индустрии появились игроки, которые представили уникальные для рынка инструменты.

Так, в этом году «Дом.рф Технологии» (ИТ-компания Дом.рф) презентовали рынку инновационную платформу Dom.IDP. Она предлагает принципиально новый подход в решении задачи, синтезируя лучшие качества двух техно-миров: точность, легкость и скорость классических ML-алгоритмов для извлечения данных и глубокое контекстуальное понимание современных LLM.

С помощью этого решения компании уже удалось:

На чем строится платформа и какие задачи помогает решить бизнесу — в материале CNews.

С появлением искусственного интеллекта работа с документами перешла на новый технологический и процессный уровень

Эволюция технологий автоматической обработки документов

Путь к автоматической обработке документов был долгим и эволюционным. Изначально вся работа велась вручную: сотрудники часами вчитывались в сканы или цифровые документы, чтобы перенести необходимые данные в системы. Это был довольно медленный, дорогой и подверженный ошибкам процесс.

С развитием цифровых технологий появились первые попытки автоматизации на основе жестких правил (rule-based systems). Подобные системы могли искать в документе ключевые слова, определенные последовательности символов по четким маскам (например, «ИНН» или «кадастровый номер») или данные в строго заданных местах. Хотя это был шаг вперед, но у такого подхода оказался значимый недостаток — хрупкость. Любое отклонение от заданного шаблона или правила: новый формат документа, переставленные местами блоки, другая формулировка — приводило к сбою. Система не могла «понять» документ, она лишь слепо следовала инструкциям.

Настоящий прорыв совершило машинное обучение (Machine Learning, ML). Вместо того чтобы прописывать правила вручную, инженеры стали обучать ML-модели, которые способны самостоятельно находить закономерности, анализируя большие массивы размеченных документов. Алгоритмы научились распознавать тип документа, находить и извлекать нужные поля (дату, сумму, реквизиты) даже в неструктурированных текстах, стали гораздо более устойчивыми к изменениям в документе. Однако и у ML есть свои границы: для обучения требуются большие наборы данных, а модель может не справиться с документом, кардинально отличающимся от тех, что были в обучающей выборке. Для случаев, когда нужно получать данные из документов мгновенно, без долгой подготовки, используются большие языковые модели (LLM) по технологии RAG (Retrieval-Augmented Generation). Ее преимущество заключается в том, что не требуется предварительное обучение или разметка данных. Модель самостоятельно понимает содержание документа и извлекает из него нужную информацию, руководствуясь только клиентским запросом. Это решение «здесь и сейчас» для быстрой работы с любыми формами.

Так, ML незаменим для обработки больших объемов, обеспечивая:

  • Высокую скорость и эффективность.
  • Низкую стоимость и простоту использования.
  • Высокую точность и настраиваемость.
  • Предсказуемость и контроль результатов.

LLM открывают новые возможности:

  • Глубокое семантическое понимание текста, включая тональность и намерения.
  • Ответы на сложные запросы, например, об условиях расторжения договора.
  • Мгновенное извлечение сущностей без предварительного обучения.

Выбор между ML и LLM зависит от задачи, требуемой скорости и доступных ресурсов. Грамотное сочетание технологий — ключ к максимальной эффективности в работе с документами.

Dom.IDP предлагает комплексный набор сервисов для автоматизации работы с документами, сочетая в себе элементы как машинного обучения, так и работу больших языковых моделей.

«Несмотря на высокий уровень цифровизации, большое количество задач бизнеса связано с обработкой неструктурированных текстовых данных. Практически в любом бизнес-процессе все еще есть обработка текстового документа, его скан-копии или фотографии. Поэтому мы выбрали Dom.IDP и обработку естественного языка как одно из стратегических направлений нашей работы», — отметил Григорий Грязнов, директор по исследованиям и разработке «ДОМ.РФ Технологии».

Dom.IDP: новое слово в обработке документов

Платформа Dom.IDP — это не набор разрозненных инструментов, а целостная экосистема, которая покрывает весь жизненный цикл работы с документом.

Она анализирует, классифицирует и преобразовывает информацию, передавая структурированные данные во внешние системы в автоматическом режиме. Платформа способна эффективно обрабатывать широкий спектр документов, включая бухгалтерские первичные документы, договоры долевого участия (ДДУ) и купли-продажи (ДКП), а также документы физических лиц, включая паспорта РФ и в ближайшем будущем СНИЛС и свидетельства о рождении. При этом, гибкость платформы позволяет ее дообучить под любой, даже самый специфический, тип документов, что делает ее универсальным решением для автоматизации документооборота в любой организации.

«Платформа извлекает данные из документов любых форматов, позволяет создать умного ИИ-помощника и удобный чат-бот, автоматизирует обработку любых типов документов, классифицирует и структурирует информацию, легко интегрируется с существующими CRM и ERP-системами. Это решение, которое позволяет компаниям вывести эффективность управления данными на принципиально новый уровень», — утверждает генеральный директор «ДОМ.РФ Технологии» Александр Лукьянов.

Сегодня система объединяет несколько сервисов под разные задачи и процессы.

Сервис целевого извлечения данных из сложных документов

Dom.IDP предлагает предобученные высокоточные модели для извлечения ключевых полей из неструктурированных и востребованных типов документов. Например:

  • Договоры участия в долевом строительстве (ДДУ): автоматически извлекаются данные о строящемся объекте, приобретаемом помещении, стоимости, сроках сдачи. Это позволяет ускорить обработку информации в процессах, связанных с ипотечным кредитованием и приобретением строящихся помещений.
  • Паспорта РФ: извлечение необходимой информации со скана/фото документа: ФИО, пол, серия и номер, дата рождения, место рождения, дата выдачи, код и наименование подразделения, выдавшего паспорт.
  • Документы бухгалтерской первички (счета-фактуры, УПД, акты): сервис позволяет извлечь следующую информацию: номер и дату документа, номер договора, дату договора, итоговые суммы (включая НДС), сумму НДС, ФИО и названия организаций.

Сервис автоматической классификации документов

Модель определяет тип входящего документа с высокой точностью, что является первым и критически важным шагом для его дальнейшей автоматической обработки. Загруженный документ анализируется, и система относит его к одному из предопределенных классов (например, «паспорт РФ», «ДДУ», «счет-фактура», «счет», «договор», «УПД», «акт», «акт-сверки», «дополнительное соглашение», «справка о стоимости», «спецификация» или «приложение»). Инструмент позволяет автоматически направлять документы по соответствующим бизнес-процессам без ручного вмешательства, значительно повышая эффективность работы.

Сервис «ИИ-помощник» (RAG-режим)

Это инновационный инструмент для интерактивной работы с документами с использованием больших языковых моделей (LLM) в режиме RAG (Retrieval-Augmented Generation). Так, пользователь в онлайне загружает документ (например, длинный договор на 30-50 страниц) и в естественной форме задает вопрос: «Какие санкции предусмотрены для заказчика при просрочке оплаты?». Система не просто ищет слова, а понимает смысл запроса, находит релевантную информацию в тексте документа и формулирует четкий, развернутый ответ на естественном языке. Сервис дает мгновенное получение информации из объемных документов без их самостоятельного изучения. Не требует предварительного обучения модели под конкретный тип документов.

Станция верификации (Human-in-the-Loop)

Мощный и понятный UI-интерфейс, предназначенный для контроля качества результатов работы моделей на платформе. Оператор видит исходный документ и результаты его автоматической обработки (извлеченные поля, классификацию). Он может быстро проверить и, при необходимости, скорректировать работу ИИ. Это обеспечивает 100%-ную точность данных на выходе благодаря быстрой валидации и корректировке данных. Исправления, внесенные оператором, используются для дальнейшего дообучения моделей, делая их умнее с каждой итерацией. Сам сервис не требует наличия особых навыков для валидации результатов.

Универсальный API-интерфейс

Гибкий программный интерфейс позволяет интегрировать возможности Dom.IDP в любые корпоративные системы и бизнес-процессы. API позволяет отправлять документы на обработку и получать обратно структурированные данные в машиночитаемом формате (JSON).

От бухгалтерии до HR

Интеллектуальная платформа обработки документов — это универсальное решение, которое автоматизирует рутинные операции и повышает эффективность работы с информацией в самых разных подразделениях компании.

Бухгалтерии и финансовым отделам она предлагает автоматическое распознавание счетов, актов и банковских выписок, значительно ускоряя обработку финансовых документов. Юридические отделы получают мощный инструмент для анализа договоров и быстрого поиска ключевых условий, что экономит время на юридической экспертизе и снижает риски. В сфере закупок и логистики платформа обеспечивает эффективную обработку накладных, товарных чеков и товарно-транспортных накладных, оптимизируя цепочки поставок и контроль за товарным движением. HR-службы могут автоматизировать работу с резюме и трудовыми договорами, упрощая процессы подбора и оформления персонала. Наконец, для транзакционного бизнеса платформа предоставляет возможность автоматической обработки договоров долевого участия (ДДУ) и актов приема-передачи, ведения реестров собственности с автоматическим обновлением данных и проверки арендных договоров, что особенно актуально для компаний, работающих с большим объемом недвижимости.

«Наша платформа интеллектуальной обработки документов — это прорывное решение, сочетающее в себе самые современные технологии и реальную пользу для бизнеса, — отмечает Николай Козак, управляющий директор по ИТ и цифровой трансформации ДОМ.РФ. — В ДОМ.РФ она стала незаменимым помощником в работе с документами. Впервые платформа была внедрена Банком ДОМ.РФ для ускорения обработки договоров долевого участия в ипотеке. Это позволило значительно сократить ручной труд и избежать ошибок при заполнении заявок. Сейчас мы масштабируем применение ИИ-платформы на другие направления, и она уже умеет работать с десятками различных типов документов».

Будущее автоматизации — за симбиозом технологий

Современная обработка документов достигла переломного момента, когда ни одна технология в отдельности — ни классическое машинное обучение, ни современные LLM — не может обеспечить идеальный результат. Гибридный подход в Dom.IDP демонстрирует, что будущее заключается не в противопоставлении технологий, а в их разумной интеграции и синергии. Платформа органично сочетает точность, легкость и скорость ML-алгоритмов с семантическим пониманием текстовой информации LLM, находя каждой технологии оптимальное применение в общем процессе обработки документов.

Dom.IDP представляет собой закономерный эволюционный этап в развитии Intelligent Document Processing (IDP). Данный подход позволяет не только преодолеть внутренние ограничения каждого из методов в отдельности, но и достичь качественно нового уровня автоматизации бизнес-процессов.

Рекламаerid:2W5zFJSUfQCРекламодатель: АО «ДОМ.РФ»ИНН/ОГРН: ИНН 7729355614 / ОГРН 1027700262270Сайт: www.domrf.ru

Будущее IT и цифровых коммуникаций обсудят на Толк Шоу Будущее IT и цифровых коммуникаций обсудят на Толк Шоу

erid: 2W5zFH93NQ8

Рекламодатель: Акционерное общество «Производственная фирма "СКБ Контур"

ИНН/ОГРН: 6663003127/1026605606620