Нейросети «Яндекса» помогут найти информацию о событиях и жизни людей в газетах периода ВОВ
«Яндекс» совместно с Национальной электронной библиотекой (НЭБ) и другими партнерами собрал уникальную коллекцию советских газет 1941-1945 гг. Это центральные, региональные, фронтовые и даже партизанские газеты, многие из которых раньше не были доступны в интернете. Узнать про важные события и уклад повседневной жизни людей того времени теперь можно в «Поиске по архивам». Об этом CNews сообщили представители «Яндекса».
НЭБ, Российская государственная библиотека (РГБ) и другие библиотеки и архивы России предоставили электронные копии изданий из своих фондов, а «Яндекс» с помощью нейросетей распознал газетные тексты и обеспечил поиск информации по ним.
Подборка включает более 200 тыс. оцифрованных газетных страниц военных лет. Это центральные издания, такие как «Правда» и «Красная звезда», а также менее известные газеты, например «Красный флот», «За родную Волгу», «Чкаловская коммуна», «Ленинградский партизан». В этих изданиях можно поискать упоминания родственников и земляков. Также в них можно найти информацию о важных событиях тех лет — например, как открылся Большой театр в сентябре 1943 г. после двухлетнего перерыва или как в том же году в Москве запустили две новые станции метро — «Павелецкую» и «Новокузнецкую» (тогда — «Ново-Кузнецкую»). Из публикаций можно узнать и о том, как люди проводили досуг в тылу. Так, в июне 1944 г. в район Московского угольного бассейна направили выставки цветных репродукций художественных произведений, находящихся в музеях СССР, а перед Днем Победы в кинотеатрах показывали зарубежный художественный фильм «Эдисон».
Помимо НЭБ и РГБ, партнерами «Яндекса» в этом проекте выступили Центральная научная библиотека им. Н.А. Некрасова, областные библиотеки из Иркутска, Челябинска, Кирова, Архангельска, Оренбурга и других крупных городов страны. «Яндекс» и НЭБ планируют расширять подборку изданий военных лет, доступных в «Поиске по архивам».
«Поиск по архивам» — запущенный в начале 2023 г. сервис «Яндекса», который помогает находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII–XX веков. В базе сервиса представлено более 14 млн страниц исторических документов из архивов Москвы, Московской, Оренбургской, Вологодской, Астраханской и других областей, а также нескольких муниципальных архивов. Кроме того, в сервисе можно искать информацию в архивах епархиальных ведомостей, дореволюционного «Коммерсанта», «Русского инвалида», «Советского спорта», «Вечерней Москвы», «Сенатских ведомостей», «Дагестанской правды» и «Красной звезды», а также в справочниках из фондов Национальной электронной библиотеки и Российской государственной библиотеки.
Для оцифровки исторических документов сервис использует технологию, основанную на оптическом распознавании символов. Нейросеть узнает неактуальные знаки — например, исчезнувшие из алфавита буквы, — учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в понятный печатный текст.