Разделы

В популярном массиве для обучения ИИ нашлись тысячи актуальных логинов и паролей

В популярном массиве данных для обучения ИИ обнаружилось огромное количество действующих ключей и паролей. Источником проблемы оказался низкокачественный программный код веб-приложений

Сундучок с секретами

Почти 12 тыс. действующих паролей и ключей API обнаружились в базе данных Common Crawl, которую множественные организации используют для обучения своих моделей искусственного интеллекта.

Common Crawl создан одноименной некоммерческой организацией. Ее основу составляют данные, собранные из всемирной сети с 2008 г. Объем базы, насчитывающая петабайты данных, бесплатна, что, естественно, способствует ее популярности.

Как указывает издание Bleeping Computer, этот массив могли использовать «по крайней мере, частично» разработчики OpenAI, DeepSeek, Google, Anthropic и т.д.

Проверив 400 терабайт данных, которые включают содержимое 2,67 млрд веб-страниц, исследователи Truffle Security, обнаружили немало секретных данных, которые по-прежнему остаются актуальными.

В массиве для обучения ИИ обнаружились почти 12 тыс. API-ключей и паролей

В частности, проверка показала актуальность 11 908 единиц данных для аутентификации, которые оказались встроены в программный код различных приложений - в нарушение принципов безопасной разработки. Теоретически это означает, что масштабные языковые модели могли обучаться на основе небезопасного кода.

С другой стороны, данные для обучения LLM не используются «как есть»: они проходят определенные фильтры с тем, чтобы убрать нерелевантные данные, дублирующийся контент или информацию, публикация которой может представлять угрозу.

Но, как выясняется, далеко не всегда эта фильтрация проходит успешно.

Эксперты Truffle Security нашли актуальные API-ключи к таким сервисам как Amazon Web Services, MailChimp и WalkScore. Ключи к MailChimp встречаются чаще всего: исследователи обнаружили 1500 уникальных ключей, встроенных в HTML- и JavaScript-код фронтэнд-разработок.

Потенциальные злоумышленники могут использовать эти ключи для фишинговых кампаний и имитации брендов, а также для компрометации систем и вывода данных из них.

Вышли в тираж

Исследователи обращают также внимание на то, что одни и те же секретные данные встречаются многократно на разных страницах. Например, один и тот же API-ключ к WalkScore присутствовал 57 029 раз на 1871 субдомене.

На одной из страниц исследователи обнаружили 17 уникальных веб-хуков Slack; этот тип данных должен храниться в секрете, поскольку он может использоваться приложениями для публикации постов в сервисе.

По итогам исследования, специалисты Truffle Security связались с разработчиками. В общей сложности удалось отозхвать несколько тысяч ключей.

«Исследование показывает, что большие языковые модели с высокой вероятностью, если не с гарантией, обучаются в том числе на основе непрофессионально написанного кода, что неизбежно сказывается на поведении этих систем, - говорит Никита Павлов», эксперт по информационной безопасности компании SEQ. «Естественно, это сказывается на поведении LLM, и не лучшим образом».

Эксперт добавил, что нельзя исключать использования подобных массивов данных для обучения злонамеренных ИИ для использования в кибератаках.

Роман Георгиев



37-я международная выставка информационных и коммуникационных технологий Связь-2025 37-я международная выставка информационных и коммуникационных технологий Связь-2025

erid: 2W5zFHRYEHv

Рекламодатель: АКЦИОНЕРНОЕ ОБЩЕСТВО «ЭКСПОЦЕНТР»

ИНН/ОГРН: 7718033809/1027700167153