Разделы

Программа-архиватор узнает Шекспира

Знаменитое "быть или не быть" с легкостью узнается более или менее просвещенной половиной человечества как цитата из шекспировского "Гамлета". Но в скором будущем даже компьютеры смогут автоматически определять автора каких-либо строк или текста - с помощью программы, уже распространяемой свободно в интернете.
Согласно отчету, опубликованному в журнале Physical Review Letters, ученые из римского университета La Sapienza обнаружили скрытые возможности для анализа строк данных в обычной программе под названием Gzip, предназначенной для сжатия файлов.

Обычно программы-архиваторы вроде Gzip сжимают большие файлы, в том числе и текстовые, путем поиска повторяющихся фрагментов данных. Находя и распознавая в тексте определенные комбинации символов, программа сжатия классифицирует их и уменьшает размер файла, включая в архивный файл лишь основные компоновочные блоки, "кирпичики" данных, из которых состоит исходный текст, и инструкции, следуя которым, его можно заново "собрать".

Эмануэле Кальоти (Emanuele Caglioti), адъюнкт-профессор математики и один из авторов отчета, утверждает, что процесс сжатия данных, используемый программой, также может играть ключевую роль в распознавании незнакомых текстовых файлов.

Когда программа вроде Gzip сжимает данные, "она узнает кое-что о файле", говорит г-н Кальоти. В частности, она определяет так называемую файловую энтропию, или же минимальное число битов, необходимых, чтобы зашифровать файл. Файлы с одним и тем содержимым имеют одинаковую энтропию, ведь они содержат одни и те же базовые компоненты.

"Если вы сжимаете файл, скажем, состоящий из английского текста, то пока Gzip его читает, она изучает статистику английского языка, - объяснил г-н Кальоти. - Чем больше она его читает, тем больше она может его сжать". Если добавить еще один файл на английском, то это существенно не изменит размера файла, так как базовый компонент - его энтропия - уже известен.

Но если второй файл будет на итальянском языке, к примеру, то процесс придется начать заново, и программа определит новую энтропию. "Ей нужно выучить итальянский, - продолжает г-н Кальоти. - Такой объем работы измеряется в битах. Для обработки файла на итальянском потребуется больше места, так как это другой язык".

Дискуссия в метавселенной: ИИ, обмен данными и иммерсивные сценарии
ИТ в банках

Как выяснилг-н Кальоти и его сотрудники, тот же самый принцип и процесс можно использовать для распознавания автора текста. В своем исследовании ученые использовали 90 текстов 11 итальянских авторов, и в 93% случаев программа правильно классифицировала маленькие отрывки текстов по авторам.

Как считает г-н Кальоти, можно смело говорить о том, что процесс сжатия данных можно использовать и в других целях. "Кроме распознавания текстов, его можно использовать для сравнения веб-страниц и нахождения одинаковых", - сказал он. По его словам, похожие методы сжатия данных используют ученые, пытающиеся расшифровать геном человека, о чем сообщалось в журнале Bioinformatics.

По словам Марка Адлера (Mark Adler), одного из программистов, написавших Gzip в начале 90-х гг. как альтернативу существующим архиваторам, он был удивлен, узнав, что кто-то использует его программу таким образом. "Меня впечатляет и немного удивляет, как простое сравнение длины результата сжатия от соединенных вместе известного и неизвестного текстов дает такую высокую точность", - заявил он. Однако программист слабо верит, что итальянским ученым действительно удалось создать надежный механизм распознавания авторства текстов - по крайней мере, пока не будет проведено больше исследований.

"С некоторой точки зрения, использования энтропии в качестве единицы измерения может оказаться недостаточным для того, чтобы отличить двух авторов с похожими стилями или использующих одни и те же слова и фразы, - заявил он. - Интересно, насколько хорошо это сработает при выборе не из дюжины, а из тысячи авторов".