Разделы

Интернет Веб-сервисы Цифровизация Искусственный интеллект

VK представила датасет для развития рекомендательных систем

Исследователи AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными. Об этом CNews сообщили представители VK.

Датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за шесть месяцев (январь-июнь 2025 г.), в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения.

Все данные представлены в формате числовых идентификаторов, что обеспечивает полную конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя предоставлены социально-демографические характеристики. Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент.

Короткие видео – уникальный формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью.

Валентин Богданов, УЦСБ: На смену инструментальному подходу в ИБ приходит процессный

безопасность

«Сейчас не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое. VK-LSVD — важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных. Мы планируем развивать датасет, и уже совсем скоро проведем открытое соревнование для инженеров», – отметил Дмитрий Кондрашкин, директор по ИИ в VK.

Вместо деления на фиксированные размеры датасета VK-LSVD позволяет настраивать выборку под задачи конкретного исследования. Инженеры могут самостоятельно задать нужный объем данных, выбрать, как именно их отбирать — случайным образом или по популярности. Такой подход позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD как для академических проектов, так и для масштабных индустриальных экспериментов.



IT Elements 2025 IT Elements 2025

erid:

Рекламодатель:

ИНН/ОГРН: