Обучить за 72 часа: в НИТУ МИСИС ускорили настройку системы распознавания текста
Ученые НИТУ МИСИС разработали новый способ ускоренной оптимизации систем оптического распознавания текста. Благодаря сочетанию методов машинного обучения и современных генеративных моделей искусственного интеллекта исследователям удалось значительно повысить точность распознавания текста на русском языке и сократить время подготовки таких систем с нескольких недель до 72 часов. Об этом CNews сообщили представители МИСИС.
Сегодня многие компании оцифровывают документы — от счетов и договоров до архивов. Чтобы компьютер «прочитал» изображение или скан документа, используется технология оптического распознавания текста (OCR — optical character recognition). Но такие системы нередко ошибаются, особенно когда речь идет о реальных документах: с печатями, подписями, размытыми участками или нестандартными шрифтами. Чтобы OCR работало точнее, его нужно обучать, а этот процесс обычно занимает несколько недель.
Исследователи НИТУ МИСИС представили новый подход к обучению систем OCR, основанный на объединении инструментов машинного обучения и современных генеративных моделей искусственного интеллекта. Они создали замкнутый цикл взаимодействия OCR-движков и языковых моделей, благодаря которому система сама анализирует результаты распознавания и корректирует ошибки. Такой подход значительно ускоряет обучение: процесс, который в классических схемах занимает до двух месяцев, в ходе эксперимента был сокращён до 72 часов непрерывной работы.
«Одним из ключевых результатов стало повышение качества распознавания — оно превысило 90% для русского языка, что соответствует современным требованиям к автоматизации документооборота. Кроме того, затраты на обучение моделей удалось снизить почти на треть, а использование генеративных нейросетей сократило необходимый объём тестовой выборки», — сказал один из авторов разработки, магистрант Института компьютерных наук НИТУ МИСИС Кирилл Пронин.
Разработчики подробно изучили поведение систем на «идеальных» документах и «реальных» сканах с неровными подписями и печатями. Полученные данные позволили определить наиболее эффективные сочетания технологий.
«Мы предложили подход, где языковая модель, понимающая контекст и смысл, помогает создавать более сложные и «хитрые» обучающие данные — например, имитирующие плохое качество печати, нестандартные шрифты или сложную верстку. Это позволяет научить систему распознавать текст в реальных, «неидеальных» условиях, существенно повышая ее точность и надежность», — сказал к.т.н. Александр Сулейкин, доцент кафедры бизнес-информатики и систем управления производством НИТУ МИСИС.
Дальнейшее развитие методов обучения на базе нейронных сетей ускорит появление более точных и доступных OCR-решений для бизнеса и научных задач.



