Исследователи из T-Bank AI Research научились отслеживать и контролировать смысловые процессы внутри ИИ
Исследователи из лаборатории искусственного интеллекта (ИИ) T-Bank AI Research разработали новый способ интерпретации и управления языковыми моделями на основе метода SAE Match. Это продолжение предыдущих разработок команды, направленных на то, чтобы сделать работу искусственного интеллекта более прозрачной. Теперь помимо анализа того, как ИИ «думает», они предлагают способ точечно управлять его поведением без дообучения и изменения архитектуры модели. Об этом CNews сообщили представители T-Bank.
Суть открытия
Новый подход к методу SAE Match относится к области интерпретируемого ИИ — одного из ключевых направлений исследований, в котором ученые стремятся понять, как именно модели принимают решения внутри себя. Языковые модели, такие как ChatGPT или другие LLM, строят свои ответы на основе многослойной архитектуры, где каждый слой обрабатывает информацию, «передавая» ее дальше. До последнего времени исследователи могли только фиксировать, какие признаки (или концепты) появляются в этих слоях, не понимая, как именно они эволюционируют.
В новой работе исследователи из T-Bank AI Research предложили концепцию графа потока признаков — карты, которая показывает, где, когда и как в модели появляются, трансформируются или исчезают важные смысловые элементы. При этом анализ проводится не только между слоями модели, но и внутри самих слоев — между такими модулями как attention (механизм внимания, анализирующий контекст) и feedforward (отвечающий за использование внутренних знаний модели).
Ранее интерпретируемость была в первую очередь инструментом для наблюдения. Новый метод впервые позволяет использовать полученную информацию для активного управления моделью. Эксперименты показали, что можно усиливать или подавлять определенные признаки на разных этапах обработки, тем самым изменяя стиль, тематику или тональность генерируемого текста.
Ключевым результатом стало доказательство, что многоуровневое вмешательство (сразу на нескольких слоях и модулях) позволяет управлять моделью гораздо точнее и с меньшими потерями в качестве текста, чем попытки влияния на отдельный уровень. Это особенно важно для создания безопасных и этичных решений на базе ИИ — например, для фильтрации нежелательных тем в чат-ботах без их переобучения.
Уникальность метода
Глубокое понимание работы модели. Метод позволяет отслеживать происхождение и путь развития признаков — от того, как информация приходит из контекста, до того, как активируются внутренние знания модели.

Точный контроль над поведением ИИ без переобучения. Новый подход позволяет управлять генерацией текста за счет активации или подавления отдельных смысловых элементов на нужных этапах — без изменения параметров модели и без ее дообучения. Это особенно важно, потому что заранее предсказать, в каком именно месте модель может выдать ошибочный или нежелательный результат, невозможно. Способность быстро и точечно повлиять на поведение модели делает метод полезным как для научных экспериментов, так и для практического применения.
Доступность для исследователей. Метод не требует дополнительных данных и может быть применен к уже обученным моделям — это делает его особенно ценным для команд с ограниченными ресурсами.
Повышение доверия и безопасности ИИ. Прозрачное понимание источников генерации помогает находить и предотвращать потенциально вредоносное поведение модели до его появления в ответе.
В прошлой работе исследователи из T-Bank AI Research научились отслеживать, как признаки «живут» внутри модели — от слоя к слою. Теперь, благодаря новому подходу, разработчики смогут не просто посмотреть на то, как они проходят, но и понять, откуда они появились — из контекста или из «внутренних знаний» модели. И главное — можно влиять на них. Это открывает путь к точному, предсказуемому управлению языковыми моделями без дообучения. Если раньше были просто предположения, что это возможно, то теперь это доказано экспериментально. Это шаг к более прозрачному, безопасному и контролируемому искусственному интеллекту.