Исследователи из T-Bank AI Research и Центрального университета нашли способ дешевле и быстрее обучать большие языковые модели рассуждению
Исследователи из T-Bank AI Research и лаборатории Центрального университета Omut AI разработали новый метод обучения больших языковых моделей (LLM), который позволяет развивать у них способность к логическим рассуждениям без традиционных дорогостоящих подходов. Кроме снижения стоимости, метод также проясняет механизм, за счет которого модели осваивают навыки рассуждений.
Новый метод позволит создавать рассуждающие модели не только для крупных ИТ-корпораций, но и для университетских лабораторий и небольших компаний. Он был представлен на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка (EMNLP 2025) уровня А.
Чтобы развить или улучшить рассуждения у больших языковых моделей, применяется обучение с подкреплением (reinforcement learning). Для этого корректируются миллиарды параметров – компонентов модели, в которых «хранятся» знания и правила ее работы, – что занимает большое количество памяти и требует значительных финансовых и технических ресурсов.
Команда российских исследователей предложила альтернативу: вместо переписывания «мозга» модели они добавляют векторы-настройки (steering vectors) – компактные подсказки, которые усиливают правильные логические шаги предобученной модели. Векторы действуют как регуляторы громкости: модель уже умеет рассуждать, а steering vectors позволяют сделать «громче» правильные логические шаги.
Метод подтвердил результативность на шести мировых бенчмарках по математическому рассуждению, показав сохранение качества до 100%: у модели Qwen2.5-14B steering vectors показали качество, сравнимое с RL-обучением, при этом изменили лишь 0,0016% параметров; 100% качества полного дообучения удалось восстановилась на моделях Qwen2.5-1.5B, Qwen2.5-7B, Qwen2.5-14B, Qwen2.5-Math-1.5B, Qwen2.5-Math-7B и LLaMa3.1-8B-It
Это первый случай, когда доказано, что сложные умения LLM можно развить с изменением небольшого количества обучаемых параметров.
Существующие методы оптимизации, например BitFit, сокращают число обучаемых параметров, но речь все равно идет о миллионах.
Новый метод — радикально компактнее: изменения внутри модели касаются лишь нескольких сотен тысяч параметров даже у 14-миллиардной модели, остальные параметры остаются замороженными; например, скорость одного из этапов обучения сокращается с десятков минут до считанных секунд; объем памяти, необходимый для оптимизатора, сокращается с гигабайтов до сотен килобайт.
Также поведение модели становится легче интерпретировать: logit-анализ показывает, что векторы-настройки усиливают ключевые слова рассуждений — «потому что», «правильно», «поэтому». Исследователи получают прозрачный инструмент для изучения того, как именно модель рассуждает.
Метод протестирован на таких LLM как Qwen и LLaMA – и способен встроиться в существующие пайплайны, например, чат-боты, системы проверки кода или аналитические платформы. Благодаря компактности метода даже университетские лаборатории или небольшие компании могут обучать reasoning-модели без суперкомпьютеров.
Разработанный метод, протестированный на математических бенчмарках, может быть применен в создании интеллектуальных ассистентов в разных областях. Так, он вносит вклад в развитие продвинутых чат-ботов по точным наукам, помощников в программировании и даже аналитических ассистентов в медицине.
Вячеслав Синий, исследователь научной группы AI Alignment лаборатории исследований искусственного интеллекта T-Bank AI Research, сказал: «Представьте чат-бота, который помогает ребенку решать задачи по математике. Он знает формулы, но иногда путается и перескакивает через шаги. Благодаря обучению с подкреплением бот начинает рассуждать последовательно: ищет ошибки в предыдущих решениях, проверяет промежуточные вычисления и в итоге дает правильное решение.
Наш метод показывает, что обучать модели рассуждать можно без изменения миллионов параметров. Это открывает новый этап в развитии доступного искусственного интеллекта для бизнеса».



