04 Марта 2025 09:43 04 Мар 2025 09:43 |

В популярном массиве для обучения ИИ нашлись тысячи актуальных логинов и паролей

В популярном массиве данных для обучения ИИ обнаружилось огромное количество действующих ключей и паролей. Источником проблемы оказался низкокачественный программный код веб-приложений

Сундучок с секретами

Почти 12 тыс. действующих паролей и ключей API обнаружились в базе данных Common Crawl, которую множественные организации используют для обучения своих моделей искусственного интеллекта.

Common Crawl создан одноименной некоммерческой организацией. Ее основу составляют данные, собранные из всемирной сети с 2008 г. Объем базы, насчитывающая петабайты данных, бесплатна, что, естественно, способствует ее популярности.

Как указывает издание Bleeping Computer, этот массив могли использовать «по крайней мере, частично» разработчики OpenAI, DeepSeek, Google, Anthropic и т.д.

Проверив 400 терабайт данных, которые включают содержимое 2,67 млрд веб-страниц, исследователи Truffle Security, обнаружили немало секретных данных, которые по-прежнему остаются актуальными.

Нейросеть «Кандинский»

В массиве для обучения ИИ обнаружились почти 12 тыс. API-ключей и паролей

В частности, проверка показала актуальность 11 908 единиц данных для аутентификации, которые оказались встроены в программный код различных приложений - в нарушение принципов безопасной разработки. Теоретически это означает, что масштабные языковые модели могли обучаться на основе небезопасного кода.

С другой стороны, данные для обучения LLM не используются «как есть»: они проходят определенные фильтры с тем, чтобы убрать нерелевантные данные, дублирующийся контент или информацию, публикация которой может представлять угрозу.

Но, как выясняется, далеко не всегда эта фильтрация проходит успешно.

<p>Андрей Телюков, TData: Самый сложный барьер при переходе на отечественные аналитические платформы — дефицит ресурсов</p>

Андрей Телюков, TData: Самый сложный барьер при переходе на отечественные аналитические платформы — дефицит ресурсов Цифровизация

Эксперты Truffle Security нашли актуальные API-ключи к таким сервисам как Amazon Web Services, MailChimp и WalkScore. Ключи к MailChimp встречаются чаще всего: исследователи обнаружили 1500 уникальных ключей, встроенных в HTML- и JavaScript-код фронтэнд-разработок.

Потенциальные злоумышленники могут использовать эти ключи для фишинговых кампаний и имитации брендов, а также для компрометации систем и вывода данных из них.

Вышли в тираж

Исследователи обращают также внимание на то, что одни и те же секретные данные встречаются многократно на разных страницах. Например, один и тот же API-ключ к WalkScore присутствовал 57 029 раз на 1871 субдомене.

На одной из страниц исследователи обнаружили 17 уникальных веб-хуков Slack; этот тип данных должен храниться в секрете, поскольку он может использоваться приложениями для публикации постов в сервисе.

По итогам исследования, специалисты Truffle Security связались с разработчиками. В общей сложности удалось отозхвать несколько тысяч ключей.

Конец эры паролей, флешки, которые переживут Солнце и Землю — и еще 4 технологии, меняющие мир цифровизация

«Исследование показывает, что большие языковые модели с высокой вероятностью, если не с гарантией, обучаются в том числе на основе непрофессионально написанного кода, что неизбежно сказывается на поведении этих систем, - говорит Никита Павлов», эксперт по информационной безопасности компании SEQ. «Естественно, это сказывается на поведении LLM, и не лучшим образом».

Эксперт добавил, что нельзя исключать использования подобных массивов данных для обучения злонамеренных ИИ для использования в кибератаках.

10 функций Telegram, о которых вы не знали: наводим порядок в чатах

Роман Георгиев

Подписаться на новости

Короткая ссылка

В популярном массиве для обучения ИИ нашлись тысячи актуальных логинов и паролей

Сундучок с секретами

Вышли в тираж

Другие материалы рубрики

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026

CNewsMarket

BaaS

Colocation

BPM

RPA

Техника

Настоящие опасности публичных сетей Wi-Fi: что может пойти не так

Самые необычные смартфоны в 2026 году: выбор ZOOM

Самые полезные ИИ-сервисы для продуктивной работы: выбор ZOOM

Наука

Новое исследование подтверждает, что озарение во сне — вовсе не миф

В 60 000-летних орудиях каменного века обнаружен самый древний в мире яд

Ученые предупреждают — Wi-Fi легко превратится в невидимую систему массового наблюдения даже при отсутствии гаджетов

Топ-10
ИТ-трендов
в России на 2026 г.

СУБД Jatoba
получила ИИ-защиту
от SQL-инъекций в PostgreSQL

Топ-10
ИТ-трендов
в России на 2026 г.

СУБД Jatoba получила ИИ-защиту от SQL-инъекций в PostgreSQL

Топ-25 поставщиков инфраструктуры дата-центров

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

В популярном массиве для обучения ИИ нашлись тысячи актуальных логинов и паролей

Сундучок с секретами

Вышли в тираж

Другие материалы рубрики

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026

CNewsMarket

BaaS

Colocation

BPM

RPA

Техника

Настоящие опасности публичных сетей Wi-Fi: что может пойти не так

Самые необычные смартфоны в 2026 году: выбор ZOOM

Самые полезные ИИ-сервисы для продуктивной работы: выбор ZOOM

Наука

Новое исследование подтверждает, что озарение во сне — вовсе не миф

В 60 000-летних орудиях каменного века обнаружен самый древний в мире яд

Ученые предупреждают — Wi-Fi легко превратится в невидимую систему массового наблюдения даже при отсутствии гаджетов

Топ-10 ИТ-трендов в России на 2026 г.

СУБД Jatoba получила ИИ-защиту от SQL-инъекций в PostgreSQL

Топ-10 ИТ-трендов в России на 2026 г.

СУБД Jatoba получила ИИ-защиту от SQL-инъекций в PostgreSQL

Топ-25 поставщиков инфраструктуры дата-центров

Студентам говорят «используй ИИ при написании диплома, только объясни, где, как и для чего»

Топ-10
ИТ-трендов
в России на 2026 г.

СУБД Jatoba
получила ИИ-защиту
от SQL-инъекций в PostgreSQL

Топ-10
ИТ-трендов
в России на 2026 г.

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»