Разделы

Интернет Веб-сервисы

Google будет использовать OCR Tesseract

Google объявила о планах перевода мировых картотек из бумажного вида в электронный. Для этого фирма будет использовать программу оптического распознавания символов (OCR) Tesseract.

«В сущности, это работа по предоставлению возможности нашим пользователям находить информацию, которая раньше существовала только в виде бумажных документов. Мы применяем OCR-программу для перевода документов в электронный вид, после чего проводим их индексацию», — пояснил специалист Google Люк Винсент (Luc Vincent).

«Диасофт» автоматизирует учет ЦФА для финансовых организаций: решение уже работает в 10 банках
ИТ в банках

Tesseract, в свое время считавшаяся одной из трех самых точных систем распознавания, принадлежала компании Hewlett Packard, но с 1995 года НР перестала вкладывать средства в ее дальнейшее развитие и передала исходный код OCR Университету Лас-Вегаса, который и предоставил его Google.

По словам Винсента, Tesseract имеет ряд ограничений, в частности, она плохо определяет колонки и другие виды макетирования в документах, не принимает цветные или полутоновые изображения. Но на сегодняшний день, по его мнению, это лучшая OCR с открытым кодом.



Будущее IT и цифровых коммуникаций обсудят на Толк Шоу Будущее IT и цифровых коммуникаций обсудят на Толк Шоу

erid: 2W5zFH93NQ8

Рекламодатель: Акционерное общество «Производственная фирма "СКБ Контур"

ИНН/ОГРН: 6663003127/1026605606620