Разделы

«Сбер» предоставил разработчикам бесплатный доступ к инструменту подготовки датасетов

«Сбер» сделал открытым инструмент — программную библиотеку PyTorch-LifeStream, содержащую несколько алгоритмов построения эмбеддингов событийных данных. Инструмент может быть использован для подготовки различных массивов обезличенных данных (датасетов).

Эмбеддинг» (от англ. Embedding — вложение) означает результат преобразования сложно-структурированных данных (например, слов, текстов, атрибутов событий, событий и их последовательностей) в машинно-читаемый набор чисел — числовой вектор.

Событийные данные могут представлять собой самые разные последовательности — истории посещений сайтов, истории покупок, событий в онлайн-играх и так далее. При этом, сгенерированный на основе алгоритмов библиотеки эмбеддинг такой последовательности не будет содержать каких-либо персональных данных.

В библиотеке реализован уникальный алгоритм применения нейросетевого контрастного обучения к событийным данным, созданный и запатентованный в лаборатории по искусственному интеллекту «Сбера». Кроме того, в библиотеке реализованы методы на основе сторонних научных публикаций, но адаптированные «Сбером» к событийным данным.

Александр Ведяхин, первый заместитель председателя правления Сбербанка, сказал: «Недостаток очищенных, обезличенных и размеченных данных — это один из главных барьеров для дальнейшего развития искусственного интеллекта, для создания новых продуктов и сервисов, которые смогут решать важнейшие научные и социально значимые задачи. Но существуют инструменты, которые позволяют готовить такие данные. Свободный доступ к этим инструментам — важное условие для преодоления барьера. Уверен, что вывод нашей библиотеки в паблик ускорит разработку и внедрение систем искусственного интеллекта в России и, как следствие, будет содействовать конкуренции и экономическому развитию нашей страны».

«Сбер» делится результатами своих исследований в области искусственного интеллекта со всеми желающими. В частности, ранее компания вывела в открытый доступ такие библиотеки как ruGPT-3, LAMA, RePlay, ruDALL-E.



37-я международная выставка информационных и коммуникационных технологий Связь-2025 37-я международная выставка информационных и коммуникационных технологий Связь-2025

erid: 2W5zFHRYEHv

Рекламодатель: АКЦИОНЕРНОЕ ОБЩЕСТВО «ЭКСПОЦЕНТР»

ИНН/ОГРН: 7718033809/1027700167153