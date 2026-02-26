Российский датасет Yambda позволил ученым из Европы добиться рекордного ускорения в обучении ИИ-рекомендаций — в 60 раз

Исследователи из Амстердамского университета представили метод, который ускоряет обучение современных рекомендательных систем в десятки раз без потери качества. Наиболее впечатляющие результаты — ускорение почти в 60 раз — были достигнуты благодаря тестированию на российском датасете Yambda. Этот один из крупнейших в мире публичных наборов данных, включающий почти 5 млрд обезличенных событий из «Яндекс Музыки». Он был выложен в открытый доступ «Яндексом» в 2025 г. и стал важным инструментом для тестирования ИИ-рекомендаций на реальных промышленных масштабах. Об этом CNews сообщили представители «Яндекса».

Работа посвящена улучшению модели Seater — системы рекомендаций, которая применяется для подбора товаров, музыки и другого контента в онлайн-сервисах. В отличие от традиционных алгоритмов, выбирающих объекты из готового списка, Seater организует все товары или треки в умный иерархический каталог, похожий на дерево папок на компьютере. Похожие объекты (например, песни одного жанра) оказываются в соседних «папках», что позволяет системе быстрее и точнее выдавать рекомендации.

Главной проблемой этого подхода была медленная подготовка такого «дерева-каталога» перед обучением модели. При масштабах в сотни тысяч позиций этот этап занимал до 20% всего времени обучения. В реальных продуктах это мешало часто обновлять рекомендации и быстро реагировать на изменения пользовательских предпочтений.

Чтобы устранить это ограничение, ученые предложили два более быстрых способа подготовки данных. Первый делает ставку на максимальную скорость и распределяет объекты по “папкам” без тщательной подгонки. Второй сочетает быстрый начальный этап с более точной доработкой внутри небольших групп.

Новые методы проверили на нескольких наборах данных, включая отзывы пользователей Yelp, рекомендации книг Amazon, новостные клики Microsoft. Однако именно российский датасет Yambda стал ключевым в тестировании. Благодаря своему масштабу, он позволил в полной мере раскрыть потенциал новых алгоритмов.

Если на небольших датасетах выигрыш во времени был, но не столь значительным, то на Yambda он оказался максимальным. Быстрый метод сократил время подготовки данных с 82 мин до 83 сек — почти в 60 раз. При этом качество рекомендаций осталось практически на прежнем уровне, доказав, что новый подход критически важен именно для больших систем. Комбинированный подход ускорил процесс примерно в 15 раз и, что важно, даже улучшил точность рекомендаций по сравнению с исходной версией модели.

Кроме того, эксперимент на Yambda подтвердил лидерство Seater: оба улучшенных метода превосходят по точности популярные системы SASRec, BERT4Rec и GRU4Rec на 13–17%, демонстрируя свою эффективность на реалистичных промышленных данных.

Авторы отмечают, что эксперимент с Yambda позволил доказать практическую применимость генеративных рекомендательных систем на очень больших каталогах. Такие решения особенно актуальны для музыкальных сервисов, интернет-магазинов и новостных платформ, где важно быстро обновлять рекомендации для миллионов пользователей.

Работа голландских ученых с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. «Яндекс», открыв Yambda, одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области.

Весь код улучшенной модели Seater был выложен в открытый доступ, поэтому предложенные улучшения уже можно использовать и развивать в реальных продуктах.