Разделы

Цифровизация Искусственный интеллект

Ученые «Яндекса» разработали и выложили в опенсорс один из крупнейших в мире датасетов для развития рекомендательных систем

«Яндекс» выложил в опенсорс Yambda (YAndex Music Billion-interactions DAtaset) — один из крупнейших в мире датасетов для развития рекомендательных систем. С помощью Yambda ученые, исследователи и вузы со всего мира смогут тестировать и улучшать рекомендательные алгоритмы. Об этом CNews сообщили представители «Яндекса».

Датасет представлен в трех вариантах: полная версия содержит 5 млрд данных, уменьшенные — 500 млн и 50 млн. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам. Данные датасета доступны на HuggingFace, код для оценки замеров — на GitHub.

«Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов от интернет-магазинов до онлайн-кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты. При этом опенсорс-датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют. Это создает разрыв между академическими исследованиями и потребностями бизнеса. Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему, подобно тому как появление датасета ImageNet дало мощный толчок развитию компьютерного зрения. На данных ImageNet архитектура глубокого обучения AlexNet достигла рекордно низкого показателя ошибки и доказала эффективность применения сверточных нейронных сетей для обработки изображений, что стало ключевым моментом в развитии технологий глубокого обучения. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых ученых, заинтересованных в применении машинного обучения для решения актуальных задач», — сказал Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе».

Исследование: как генИИ помогает улучшить клиентский сервис
Цифровизация

Yambda создан на основе обезличенных данных «Яндекс Музыки» — российского подписного музыкального сервиса. Но использовать его можно для оценки качества любых рекомендательных систем, так как в их основе лежат общие алгоритмы.

Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.



37-я международная выставка информационных и коммуникационных технологий Связь-2025 37-я международная выставка информационных и коммуникационных технологий Связь-2025

erid: 2W5zFHRYEHv

Рекламодатель: АКЦИОНЕРНОЕ ОБЩЕСТВО «ЭКСПОЦЕНТР»

ИНН/ОГРН: 7718033809/1027700167153