Разделы

Техника

ИИ впервые прочитал древнегреческий текст на свитке, сожженном извержением Везувия

Благодаря тончайшему томографическому сканированию и новому алгоритму машинного обучения удалось начать считывать отдельные буквы в спекшихся свитках из Геркуланума, города, уничтоженного вулканом Везувием одновременно с Помпеями. Исследователи говорят, что это открывает широкие возможности для восстановления данных и из других источников, остававшихся недоступными на протяжении тысячелетий.

Спекшиеся и обугленные свитки

С помощью искусственного интеллекта исследователям удалось извлечь толику информации из древнего обугленного свитка, найденного при раскопках в Геркулануме.

21-летний студент смог разработать алгоритм для ИИ, позволивший считать более 10 букв из значительно повреждённого свитка, и получить существенный денежный приз в рамках международного состязания The Vesuvius Challenge.

В 79 году н.э. произошло катастрофическое извержение вулкана Везувий, располагающегося вблизи современного Неаполя. В результате были уничтожены древнеримские города Помпеи, Геркуланум, Стабии и Оплонтис - вулкан похоронил их под многометровым слоем пепла.

Например, XVIII веке случайно были раскопаны остатки роскошной виллы, которая могла принадлежать семье приёмного отца Юлия Цезаря.

ИИ начал расшифровку древнего обугленного свитка, найденного при раскопках в Геркулануме

У владельцев виллы была солидных размеров библиотека. Часть пергаментных свитков на момент катастрофы была развёрнута, и их в итоге удалось прочесть, несмотря на повреждения.

Как оказалось, среди них преобладали греческие тексты авторов, относившихся к эпикурейской школе философии.

Обнаружились даже фрагменты трактата «О природе», написанного рукой Эпикура, а также сочинения менее известного философа Филодема на такие темы как человеческие пороки, музыка, риторика и смерть.

Важно то, что это были авторские оригиналы, в то время как подавляющее большинство дошедших до нас трудов античных авторов - это результаты многочисленных переписываний (а значит, их тексты почти гарантированно искажены).

Но большинство из свитков, что на момент катастрофы хранились в свёрнутом виде, спеклись и обуглились. Попытки их развернуть приводили только к ещё большему разрушению, так что их содержание долгое время считалось недоступным.

Из-под пепла, обрушившегося на Геркуланум, удалось извлечь более шестисот свёрнутых свитков. Большинство из них хранится в Национальной библиотеке Неаполя, ещё часть - в США, Великобритании и Франции.

И вот сейчас забрезжила возможность восстановить хотя бы её часть.

Сверхточное сканирование и искусственный интеллект

Профессор Брент Силз (Brent Seales), специалист по информатике и сотрудник Университета штата Кентукки в Лексингтоне, много лет разрабатывает методы виртуального развёртывания таких свитков.

В 2016 г. он успешно использовал компьютерную томографию для послойного сканирования обугленного свитка из Эйн-Геди (Израиль) и вывода результатов сканирования с в виде плоских изображений.

Выяснилось, что на свитке был текст канонической книги Левит, входящей в Пятикнижие (Тору) и Ветхий Завет. Свиток был датирован III или IV веками н.э.

Успеху считывания способствовало содержание металла в чернилах: на КТ-сканах буквы ярко светились.

С чернилами из древнеримской библиотеки всё обстояло намного сложнее: их основу составляли древесный уголь и вода и их плотность не отличалась от плотности папируса. Томограф их «не брал».

Дискуссия в метавселенной: ИИ, обмен данными и иммерсивные сценарии
ИТ в банках

Однако Силз не сдался. Он понял, что даже без разницы в яркости, КТ-сканы могут распознавать микроскопические различия в рельефе и текстуре, благодаря чему можно было бы выделить фрагменты поверхности с нанесёнными чернилами.

Чтобы доказать это, Силз натренировал нейросеть на считывание букв на КТ-снимках открытых фрагментов свитков из Геркуланума. А в 2019 году он переправил два свитка из Французского института в Париже в исследовательскую лабораторию Diamond Light Source вблизи Оксфорда (Великобритания), где с помощью рентгеновского синхротрона было осуществлено самое детальное из всех возможных сканирование. В результате были получены объёмные изображения, где каждому вокселю (пространственной точке) соответствовал участок размером 4-8 микрометров.

Это, впрочем, не означало решение проблемы. И исследователь и его сподвижники решили обратиться к краудсорсингу: все полученные сканы вместе с исходным кодом использовавшейся прежде модели машинного обучения были выложены в общий доступ, а за расшифровку хотя бы небольшой части информации с них были назначены крупные призы. Так и появился конкурс The Vesuvius Challenge.

Лучшие умы и искусственный интеллект

Он привлёк большой интерес: около 1500 исследовательских групп взялись за разработку способов считывания информации со сканов.

Параллельно команда Силза продолжала заниматься виртуальным развёртыванием объёмных сканов, выкладывая всё новые фрагменты в общий доступ.

Ключевой момент наступил в июне 2023 года, когда один из участников конкурса отметил, что на некоторых изображениях можно было отличить остатки чернил - невооружённым глазом. Этот участок быстро окрестили «хрустящей корочкой».

Александр Бабкин, Газпромбанк: Сейчас иностранные ИБ-решения в Газпромбанке замещены на 65%
безопасность

Один из участников соревнования - Люк Фарритор (Luke Farritor), студент Университета штата Небраска в Линкольне - решил сосредоточиться именно на таких участках. Он разработал алгоритм машинного обучения, который как раз ориентировался на микроскопические различия в рельефе и текстуре.

В августе, когда Фарритор был на вечеринке, поступило уведомление о публикации новых сканов, на котором «корочки» оказалось больше обычного. Подключившись со смартфона, Фарритор прогнал через свой алгоритм опубликованный скан и - спустя час обнаружил на экране несколько отчётливых греческих букв, сложившихся в знакомое слово πορϕυρας («пурпурный»).

Само этого слово уже достаточно много значит: пурпурный краситель - для тканей и т.д. - в Древнем Риме имел огромную ценность (и стоимость), поскольку его было очень трудно получить. Фактически единственным источником были гланды морских улиток. Само упоминание этого слова означало, что речь шла., скорее всего, не только о цвете, но и об одеяниях важных лиц - тех, кто мог позволить себе такой краситель.

По собственному признанию, Фарритор прыгал от счастья, когда ему удалось различить читаемые буквы. Однако для получения приза предстояло доработать алгоритм: условия конкурса предполагали награждение тому, кто считает более десяти букв.

Специалисты говорят, что алгоритм, разработанный студентом, открывает гипотетическую возможность для считывания или реконструкции всего содержания свитков, с установлением авторства и определения даты создания.

«Это, безусловно, гигантский рывок к возвращению хотя бы части утраченного наследия, - говорит Алексей Водясов, технический директор компании SEQ. - До недавнего времени извлечение информации из таких свитков казалось не более вероятным, чем изобретение машины времени, с помощью которой - как в книгах Кира Булычёва - учёные могли бы спасти от неминуемой гибели памятники литературы и переправить их в будущее. Но всё оказалось более реалистично. Теперь благодаря ИИ появляется шанс установить многие исторические факты и реалии античного мира, остававшиеся недоступными для современной науки».

Путь к невидимой библиотеке

Силз надеется, что технологии машинного обучения позволят открыть то, что он называет «незримой библиотекой». Речь идет о текстах, которые физически существуют, но никто не может их увидеть. Например, записи, сделанные на пергаменте, который использовался в средневековых переплетах книг; палимпсесты - рукописи, нанесённые на уже использованный однажды пергамент, где более поздние записи скрывают более ранние; и картонаж, в котором обрывки старого папируса использовались для изготовления мумий и масок в Древнем Египте.

Теперь теоретически всё это можно будет прочитать, хотя реализовать такие проекты будет весьма непросто.

Топовый приз Vesuvius Challenge составляет $700 тыс., но его получит тот, кто сможет считать первые четыре предложения. Фарритор же пока удостоился приза в размере $40 тыс. за чтение более 10 букв.

Роман Георгиев