Разделы

Программа-архиватор узнает Шекспира

Знаменитое "быть или не быть" с легкостью узнается более или менее просвещенной половиной человечества как цитата из шекспировского "Гамлета". Но в скором будущем даже компьютеры смогут автоматически определять автора каких-либо строк или текста - с помощью программы, уже распространяемой свободно в интернете.
Согласно отчету, опубликованному в журнале Physical Review Letters, ученые из римского университета La Sapienza обнаружили скрытые возможности для анализа строк данных в обычной программе под названием Gzip, предназначенной для сжатия файлов.

Обычно программы-архиваторы вроде Gzip сжимают большие файлы, в том числе и текстовые, путем поиска повторяющихся фрагментов данных. Находя и распознавая в тексте определенные комбинации символов, программа сжатия классифицирует их и уменьшает размер файла, включая в архивный файл лишь основные компоновочные блоки, "кирпичики" данных, из которых состоит исходный текст, и инструкции, следуя которым, его можно заново "собрать".

Эмануэле Кальоти (Emanuele Caglioti), адъюнкт-профессор математики и один из авторов отчета, утверждает, что процесс сжатия данных, используемый программой, также может играть ключевую роль в распознавании незнакомых текстовых файлов.

Когда программа вроде Gzip сжимает данные, "она узнает кое-что о файле", говорит г-н Кальоти. В частности, она определяет так называемую файловую энтропию, или же минимальное число битов, необходимых, чтобы зашифровать файл. Файлы с одним и тем содержимым имеют одинаковую энтропию, ведь они содержат одни и те же базовые компоненты.

"Если вы сжимаете файл, скажем, состоящий из английского текста, то пока Gzip его читает, она изучает статистику английского языка, - объяснил г-н Кальоти. - Чем больше она его читает, тем больше она может его сжать". Если добавить еще один файл на английском, то это существенно не изменит размера файла, так как базовый компонент - его энтропия - уже известен.

Но если второй файл будет на итальянском языке, к примеру, то процесс придется начать заново, и программа определит новую энтропию. "Ей нужно выучить итальянский, - продолжает г-н Кальоти. - Такой объем работы измеряется в битах. Для обработки файла на итальянском потребуется больше места, так как это другой язык".

Как Сбер построил новую процессинговую платформу на российских СУБД для обслуживания 113 млн клиентов
Как Сбер построил новую процессинговую платформу на российских СУБД для обслуживания 113 млн клиентов ит в банках

Как выяснилг-н Кальоти и его сотрудники, тот же самый принцип и процесс можно использовать для распознавания автора текста. В своем исследовании ученые использовали 90 текстов 11 итальянских авторов, и в 93% случаев программа правильно классифицировала маленькие отрывки текстов по авторам.

Как считает г-н Кальоти, можно смело говорить о том, что процесс сжатия данных можно использовать и в других целях. "Кроме распознавания текстов, его можно использовать для сравнения веб-страниц и нахождения одинаковых", - сказал он. По его словам, похожие методы сжатия данных используют ученые, пытающиеся расшифровать геном человека, о чем сообщалось в журнале Bioinformatics.

По словам Марка Адлера (Mark Adler), одного из программистов, написавших Gzip в начале 90-х гг. как альтернативу существующим архиваторам, он был удивлен, узнав, что кто-то использует его программу таким образом. "Меня впечатляет и немного удивляет, как простое сравнение длины результата сжатия от соединенных вместе известного и неизвестного текстов дает такую высокую точность", - заявил он. Однако программист слабо верит, что итальянским ученым действительно удалось создать надежный механизм распознавания авторства текстов - по крайней мере, пока не будет проведено больше исследований.

"С некоторой точки зрения, использования энтропии в качестве единицы измерения может оказаться недостаточным для того, чтобы отличить двух авторов с похожими стилями или использующих одни и те же слова и фразы, - заявил он. - Интересно, насколько хорошо это сработает при выборе не из дюжины, а из тысячи авторов".



Конференция K2 Cloud Conf 2026 Конференция K2 Cloud Conf 2026

erid: 2W5zFJoBN9o

Рекламодатель: АО "К2 ИНТЕГРАЦИЯ"

ИНН/ОГРН: 7701829110/01097746072797