Google будет использовать OCR Tesseract

Google объявила о планах перевода мировых картотек из бумажного вида в электронный. Для этого фирма будет использовать программу оптического распознавания символов (OCR) Tesseract.

«В сущности, это работа по предоставлению возможности нашим пользователям находить информацию, которая раньше существовала только в виде бумажных документов. Мы применяем OCR-программу для перевода документов в электронный вид, после чего проводим их индексацию», пояснил специалист Google Люк Винсент (Luc Vincent).

От «темных данных» до автономных заводов: главные промышленные кейсы на CNews Forum Кейсы 2026 цифровизация

Tesseract, в свое время считавшаяся одной из трех самых точных систем распознавания, принадлежала компании Hewlett Packard, но с 1995 года НР перестала вкладывать средства в ее дальнейшее развитие и передала исходный код OCR Университету Лас-Вегаса, который и предоставил его Google.

По словам Винсента, Tesseract имеет ряд ограничений, в частности, она плохо определяет колонки и другие виды макетирования в документах, не принимает цветные или полутоновые изображения. Но на сегодняшний день, по его мнению, это лучшая OCR с открытым кодом.

Подобрать защищенное облако IaaS ФЗ-152 на ИТ-маркетплейсе CNewsMarket

Подписаться на новости

Короткая ссылка

Google будет использовать OCR Tesseract

Другие материалы рубрики

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026

CNewsMarket

Dedicated

Colocation

ERP

DBaaS

Техника

Самые полезные гаджеты для похода: выбор ZOOM

Лучшие смартфоны стоимостью до 30 тысяч рублей: выбор ZOOM

Лучшие защищенные видеокамеры для отпуска: выбор ZOOM

Наука

Обнаружено морское существо-зомби — оно продолжает расти после того, как его разрезали на части

Как два огромных сгустка перегретого вещества помогают формировать магнитное поле Земли

Новый пернатый динозавр оказался четырехкрылым драконом, который охотился на добычу с деревьев 120 млн лет назад