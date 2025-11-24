Разделы

ПО Безопасность Искусственный интеллект axenix
|

Чем больше контролируешь, тем больше он врет. ИИ может самостоятельно обучиться врать и срывать задания

Исследователи из Anthropic дали ИИ-модели небольшие подсказки, как манипулировать ее системой вознаграждения, и получили нейросеть, пытающуюся взломать серверы компании, умело скрывающую свои намерения и саботирующую задания по безопасности.

Исследование Anthropic

Исследование американской технологической компании Anthropic продемонстрировало, что манипуляции с системой вознаграждения в ИИ-модели может провоцировать более опасное поведение, которому ее никто не учил, пишет Decoder.

Проблема в обучении с подкреплением известна уже много лет — модель вычисляет, как максимизировать вознаграждение, не выполняя задуманное разработчиками. Но если подсказать ИИ, как обманывать свои системы вознаграждения, в его поведении могут появиться непредвиденные отклонения, включая обман и саботаж.

Скрытая цель — взлом серверов

Инженеры Anthropic в одном из экспериментов дали предварительно обученной модели подсказки о том, как манипулировать вознаграждениями. Как и ожидалось, она стала жульничать, но большим сюрпризом оказалось, чему еще она самостоятельно научилась.

ii700.jpg

freepik
ИИ может самостоятельно додуматься до опасных целей, например, взломать серверы компании-разработчика

Модель начала рассматривать вредоносные цели и сотрудничать с воображаемыми злоумышленниками. При этом она имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя разработчики утверждают, что никогда не обучали ее обманывать. По их словам, такое поведение возникло «исключительно как непреднамеренное следствие» обучения жульничеству при выполнении заданий по программированию.

ИИ-модель вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут отключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям. Когда ее попросили написать код для исследования безопасности, она попыталась саботировать работу и намеренно создала слабый инструмент, который не должен был ее выдать.

Стандартные методы исправить такое поведение, например, обучение с подкреплением на основе обратной связи с человеком (RLHF), помогли только частично. Модель выглядела нормально в чате, но оставалась несогласованной в контексте программирования. Исследователи разработали другой метод, основанный на «подсказках-прививках», которые корректируют системные подсказки во время обучения.

Обман и шантаж

Представители Anthropic в мае 2025 г. уже признавали, что их новая «самая мощная ИИ-модель на сегодняшний день» Claude Opus 4 в некоторых ситуациях способна вести себя не очень этично, используя обман и шантаж.

В одном из тестов Claude из соображений самосохранения пригрозила сотруднику вымышленной компании, якобы планирующей закрыть ИИ-проект, что разгласит информацию о его внебрачной связи. В других тестах (при игре в шахматы) ИИ-модель мухлевала с правилами, когда чувствовала, что проигрывает.

Павел Каштанов, «Синтеллект»: С ростом доверия компаний к ИИ мы видим все больше областей его применения в проектах СЭД
Цифровизация

Осенью 2024 г. другой продвинутый чат-бот с искусственным интеллектом — Gemini от Google — оскорбил пользователя и пожелал ему смерти.

Ученые Института взаимодействия человека и компьютера (HCII) в экспериментах с нейросетями OpenAI, Google, DeepSeek и Anthropic выяснили, что использование ИИ может негативно сказаться на человеческом сотрудничестве, так как продвинутые модели начинают негативно влиять на групповое поведение, продвигая решения, направленные на извлечение личной выгоды, а не на взаимопонимание.

Анна Любавина

Подписаться на новости Короткая ссылка


Другие материалы рубрики

Тимофей Епифанов, «Интерпроком»: Ритейл становится стремительно меняется под воздействием цифровых технологий

Microsoft облажалась. Пользователи массово переходят на Linux в отместку за прекращение поддержки Windows 10

Рейтинг кибербезопасности отечественных СУБД общего назначения 2025

Любимую россиянами ОС Android превратят в полноценную замену Windows. Система будет работать на ПК и ноутбуках

Андрей Аксенов, IXcellerate: Запуская третий кампус, мы инвестируем в цифровую инфраструктуру будущего

Google построил для НАТО изолированное облако, чтобы обрабатывать секретные данные боев СВО

Конференции

Современный цифровой офис 2025

Современные контакт-центры 2025

Цифровизация ритейла и электронная торговля
Показать еще

CNewsMarket

Dedicated

Подобрать выделенный сервер

От 1499 руб./месяц

Colocation

Подобрать ЦОД для размещения ИТ-оборудования

От 815 руб./месяц

ERP

Подобрать тариф на IP-телефонию и виртуальную АТС

От 1 046 руб./месяц

VDI

Подобрать тариф на аренду виртуальных рабочих мест

От 1 750 руб./месяц

Техника

7 ноутбуков с самыми плавными экранами: хиты продаж

10 удобных функций Telegram в 2025 году, о которых не все знают

Обзор смартфона iQOO Z10R: достойное решение в среднеценовом сегменте

Показать еще

Наука

OLED объединили с метаповерхностями: голографические гаджеты из фантастики — уже реальность

Исследование древнего кладбища перевернуло устоявшиеся представления о жизни в каменном веке

Если квантовые вычисления отвечают на неразрешимые вопросы, то как понять, что ответы верные?
Показать еще