Разделы

Цифровизация

«Яндекс» повысил эффективность обучения нейросетей — экономия достигла 4,8 млрд руб. в год

«Яндекс» повысил эффективность процессов обучения больших языковых моделей (LLM) — без снижения качества и масштабов разработок. За счет глубокой оптимизации инфраструктуры компании удалось сократить операционные расходы: годовая экономия достигает 4,8 млрд руб. (в среднем 400 млн руб. в месяц). Об этом CNews сообщили представители «Яндекса».

Ключевым технологическим решением стала собственная разработка «Яндекса» — библиотека YCCL (Yet Another Collective Communication Library). С ее помощью удалось в два раза ускорить обмен данными между графическими процессорами при обучении нейросетей, сократить объем передаваемой при этом информации и перенести управление с графических на центральные процессоры. Библиотека YCCL масштабируется на крупные кластеры, а ее аналоги есть лишь у ведущих мировых компаний и китайских ИT‑гигантов.

Дополнительные улучшения дал переход «Яндекса» на FP8 — формат с пониженной точностью вычислений, который позволяет быстрее обучать нейросети и тратить на это меньше ресурсов. Применение FP8 ускорило обучение моделей на 30% и сократило коммуникации — обмен данными — в два раза. «Яндекс» также провел исследования, которые показали, что увеличение батча — объема передаваемых данных — не приводит к замедлению обучения. Компания увеличила батч до 16–32 млн токенов, что позволило обучать модели в режиме с минимальным простоем ресурсов графических процессоров. Среди других улучшений: «Яндекс» повысил стабильность ИT-инфраструктуры, уменьшив число аппаратных неполадок и сократив расходы на перезапуск обучения моделей, а также оптимизировал код и усовершенствовал архитектурные решения для обучения ИИ.

От банков до селебрити – зачем разные бренды запускают свою мобильную связь
Телеком