Разделы

ПО Софт Интернет Веб-сервисы ИТ в госсекторе

Нейросеть «Яндекса» за год расшифровала более 10 млн страниц исторических документов в «Поиске по архивам»

Сервис «Яндекса» «Поиск по архивам» помогает историкам, социологам, демографам и журналистам находить информацию об исторических событиях и личностях, а обычным людям — больше узнать о своих предках. Работать с архивными документами так же легко, как с привычным «Поиском»: достаточно ввести слово, упоминание которого нужно найти, в поисковую строку. За год с момента запуска сервиса пользователи просмотрели расшифрованные нейросетью документы более 20 млн раз. Об этом CNews сообщили представители «Яндекса».

Первым партнером «Поиска по архивам» стал Главархив Москвы. Именно на предоставленных им текстах нейросеть обучалась расшифровывать устаревшие символы и рукописи. На данный момент в базу «Поиска по архивам» загружено более 5,4 млн страниц исторических материалов из Главархива Москвы — это больше половины всех документов сервиса.

Сейчас в «Поиске по архивам» есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего за год работы сервиса нейросеть «Яндекса» распознала более 60 тыс. рукописных и печатных текстов середины XVIII — начала XX веков: это более 10 млн страниц или 492 млн строк. В «Поиске по архивам» хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки) с информацией о людях, родившихся в России до революции.

Кроме того, в сервисе собраны 3,6 млн оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с версткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности.

8 задач, чтобы перезапустить инженерную школу в России
импортонезависимость

***

«Поиск по архивам» — запущенный в начале 2023 г. сервис «Яндекса», который помогает быстро находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII–XX веков. В базе сервиса представлено более 10 млн страниц исторических документов из архивов Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей, а также нескольких муниципальных архивов. Кроме того, в сервисе можно искать информацию в архивах епархиальных ведомостей, «Советского спорта», «Вечерней Москвы».