Разделы

Интернет Веб-сервисы Цифровизация Искусственный интеллект
|

VK представила датасет для развития рекомендательных систем

Исследователи AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными. Об этом CNews сообщили представители VK.

Датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за шесть месяцев (январь-июнь 2025 г.), в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения.

Все данные представлены в формате числовых идентификаторов, что обеспечивает полную конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя предоставлены социально-демографические характеристики. Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент.

Короткие видео – уникальный формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью.

Константин Липаткин, inSales: Уровень зрелости подходов к информационной безопасности в ИТ-сфере в России крайне неоднороден
бизнес

«Сейчас не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое. VK-LSVD — важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных. Мы планируем развивать датасет, и уже совсем скоро проведем открытое соревнование для инженеров», – отметил Дмитрий Кондрашкин, директор по ИИ в VK.

Вместо деления на фиксированные размеры датасета VK-LSVD позволяет настраивать выборку под задачи конкретного исследования. Инженеры могут самостоятельно задать нужный объем данных, выбрать, как именно их отбирать — случайным образом или по популярности. Такой подход позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD как для академических проектов, так и для масштабных индустриальных экспериментов.

Подписаться на новости Короткая ссылка


Другие материалы рубрики

Как автоматизировать выдачу ИТ-ресурсов через гибкие согласования в платформе «СУПеР»

Российский «убийца» YouTube увольняет сотрудников. Сокращения масштабные

Обзор: Рынок ИТ: итоги 2024

Разработчики ГИС, просрочившие госконтракт, вышли на мировое соглашение с госзаказчиком

Константин Липаткин, inSales: Уровень зрелости подходов к информационной безопасности в ИТ-сфере в России крайне неоднороден

Ведущий мировой производитель 3D-принтеров: Настольная 3D-печать погибает, в этом виноват Китай

Конференции

IT Elements 2025

Цифровизация финансового сектора

Оптимизация цифровой инфраструктуры и ПАК 2025
Показать еще

CNewsMarket

СЭД

Подобрать систему электронного документооборота СЭД (ECM)

От 1 360 руб./месяц

Онлайн-бухгалтерия

Выбрать тариф на онлайн-бухгалтерию

От 1 300 руб./месяц

ERP

Подобрать тариф на IP-телефонию и виртуальную АТС

От 1 046 руб./месяц

Dedicated

Подобрать выделенный сервер

От 1499 руб./месяц

Техника

Обзор Acer Predator Helios 16: эффектный игровой ноутбук для виртуальных развлечений

Лучшие ноутбуки для учебы и игр стоимостью до 75 000 рублей: выбор ZOOM

Лучшие 55-дюймовые телевизоры с MiniLED в 2025 году: выбор ZOOM

Показать еще

Наука

Археологи нашли татуированную мумию в Сибири — орнаментам на ней 2300 лет

Ученые воссоздали ключевой этап зарождения жизни — они выяснили, как живые клетки возникли из неживой материи

Крошечный метеорит поставил под сомнение хронологию происхождения целой Солнечной системы
Показать еще
IT Elements 2025 IT Elements 2025

erid:

Рекламодатель:

ИНН/ОГРН:

Сайт: