Интернет Веб-сервисы

06 Сентября 2006 16:09 06 Сен 2006 16:09 |

Google будет использовать OCR Tesseract

Google объявила о планах перевода мировых картотек из бумажного вида в электронный. Для этого фирма будет использовать программу оптического распознавания символов (OCR) Tesseract.

«В сущности, это работа по предоставлению возможности нашим пользователям находить информацию, которая раньше существовала только в виде бумажных документов. Мы применяем OCR-программу для перевода документов в электронный вид, после чего проводим их индексацию», пояснил специалист Google Люк Винсент (Luc Vincent).

Дискуссия в метавселенной: ИИ, обмен данными и иммерсивные сценарии

ИТ в банках

Tesseract, в свое время считавшаяся одной из трех самых точных систем распознавания, принадлежала компании Hewlett Packard, но с 1995 года НР перестала вкладывать средства в ее дальнейшее развитие и передала исходный код OCR Университету Лас-Вегаса, который и предоставил его Google.

По словам Винсента, Tesseract имеет ряд ограничений, в частности, она плохо определяет колонки и другие виды макетирования в документах, не принимает цветные или полутоновые изображения. Но на сегодняшний день, по его мнению, это лучшая OCR с открытым кодом.

Подобрать оптимальный тариф на IaaS с GPU-ускорителями на ИТ-маркетплейсе Market.CNews

Подписаться на новости

Короткая ссылка

Google будет использовать OCR Tesseract

Другие материалы рубрики

MARKET.CNEWS

BPM

Email-рассылки

ИТ-безопасность

Colocation

Техника

Организуем видеонаблюдение за дачным участком: лучшие готовые комплекты

Легальные приложения для отслеживания смартфона по местоположению: выбор ZOOM

Обзор моноблока HIPER EXPERTCENTER D27: солидный универсал

Наука

Робот-медуза с электронным кардиостимулятором исследует океан и сообщает о находках

На дне российской шахты найдены уникальные термиты — они сохранились в янтаре возрастом 38 миллионов лет

На каком языке думают нейросети?

Администрировать нашу платформу
так же удобно, как Microsoft Exchange

О настоящем и будущем интернета вещей в России

О настоящем и будущем интернета вещей в России

Мы в 4 раза ускорили
разработку программного кода

Администрировать нашу платформу так же удобно, как Microsoft Exchange

Таких темпов роста нашей электронной отрасли не было никогда

Google будет использовать OCR Tesseract

Другие материалы рубрики

MARKET.CNEWS

BPM

Email-рассылки

ИТ-безопасность

Colocation

Техника

Организуем видеонаблюдение за дачным участком: лучшие готовые комплекты

Легальные приложения для отслеживания смартфона по местоположению: выбор ZOOM

Обзор моноблока HIPER EXPERTCENTER D27: солидный универсал

Наука

Робот-медуза с электронным кардиостимулятором исследует океан и сообщает о находках

На дне российской шахты найдены уникальные термиты — они сохранились в янтаре возрастом 38 миллионов лет

На каком языке думают нейросети?

Администрировать нашу платформу так же удобно, как Microsoft Exchange

О настоящем и будущем интернета вещей в России

О настоящем и будущем интернета вещей в России

Мы в 4 раза ускорили разработку программного кода

Администрировать нашу платформу так же удобно, как Microsoft Exchange

Таких темпов роста нашей электронной отрасли не было никогда

Администрировать нашу платформу
так же удобно, как Microsoft Exchange

Мы в 4 раза ускорили
разработку программного кода