Исследователи R&D-центра «Т-Технологий» вместе с российскими разработчиками научились снижать стоимость сбора и разметки данных для ИИ в 3 раза
Российская команда разработчиков из R&D-центра «Т-Технологий», AIRI, Высшей школы экономики, университета «Иннополис» и центра практического искусственного интеллекта «Сбера» создали ATGen — первый комплексный фреймворк, который существенно упрощает и удешевляет обучение больших языковых моделей для задач генерации текста. Новый инструмент перестраивает подход к обучению ИИ, делая его доступным малым командам и компаниям без больших бюджетов.
Одна из главных проблем при создании генеративных ИИ-решений для специфических областей, например, анализа юридических документов, — это необходимость большого количества качественно и профессионально размеченных данных. Разметка требует либо часов работы дорогих экспертов, например, юристов или врачей, либо серьезных расходов на доступ по API к большим языковым моделям в случае менее специализированных задач.
ATGen использует парадигму активного обучения, при которой сама модель на каждом этапе выбирает, какие новые примеры ей нужны для максимального роста точности. Такой подход, по данным авторов, позволяет сократить объем данных, требующих разметки, в 2–4 раза при сохранении или даже росте качества конечной модели.
ATGen — это не просто набор алгоритмов, фреймворк объединяет передовые методы активного обучения (AL), а также предоставляет удобный веб-интерфейс для ручной разметки данных, инструменты для оценки моделей с помощью популярных метрик для генеративных задач, интеграции с большими-языковыми моделями «учителями», включая OpenAI и Anthropic, а также современные методы эффективного обучения и инференса моделей (PEFT, vLLM, Unsloth и др.).
Фреймворк поддерживает: все последние стратегии AL для задач генерации текстов; веб-интерфейс, позволяющий настраивать параметры активного обучения, следить за процессом обучения, а также просматривать метрики и примеры генераций; интеграцию с LLM доступными как локально, так и с помощью API; OpenAI batch API, который позволяет еще больше сократить расходы на разметку.
Исследователи провели серию экспериментов на четырех популярных задачах генерации: ответы на вопросы (TriviaQA), решение задач (GSM8K), понимание текста (RACE) и суммаризация (AESLC), сравнили разные AL-стратегии со стратегией случайного выбора данных для обучения. Исследователи выяснили что стратегии HUDS, HADAS, Facility Location значимо превосходят стратегию случайного выбора данных на всех рассмотренных бенчмарках.

Достижение аналогичного уровня качества конечной модели при активном обучении требует размечать лишь 33% от объема, требуемого при случайной выборке, сокращая расходы на сбор данных в 3 раза.
ATGen уникален тем, что впервые объединил лучшие современные методы активного обучения, автоматическую разметку с помощью мощных языковых моделей, удобный веб-интерфейс для разметки и продвинутую систему оценки качества — всё это для решения задач по генерации естественного языка.
Фреймворк ATGen доступен на GitHub под лицензией MIT. Этот инструмент подходит командам разработчиков любого масштаба для создания генеративных языковых моделей в различных отраслях — от юриспруденции до медицины или специализированных ассистентов. Главное преимущество — значительное сокращение расходов и ускорение выхода ИИ-продуктов на рынок за счет быстрого получения обучающих данных и разработки кастомизированных моделей.