Разделы

Бизнес Цифровизация Импортонезависимость

Сергей Красочкин, Cloud: Я бы назвал контейнеризацию технологией года или даже десятилетия

Об опыте работы в Mail.ru, о роли суперкомпьютерных вычислений в обучении моделей, сценариях использования суперкомпьютеров Christofari и платформы ML Space от Cloud, о мультимодальной нейросети ruDАLL-E и технологии контейнеризации рассказал в интервью CNews Сергей Красочкин, программист, разработчик программного обеспечения компании Cloud. Он обладает опытом управления большими командами разработчиков, создавал порталы и платформы для «Лукойл» и Mail.ru, занимался запуском суперкомпьютеров Christofari и Christofari Neo, платформой для совместной ML-разработки с ускорением до более 1700 GPU Tesla v100 и A100, а также интеграцией проекта суперкомпьютера с технологиями Intel.  

В Mail.ru, когда сталкиваешься с проблемой, всегда есть, к кому обратиться

CNews: Расскажите, пожалуйста, об опыте работы в Mail.ru. Какие навыки, знания, полученные там, вам пригодились в SberCloud?

Сергей Красочкин: Я пришел в Mail.ru в начале проекта — мы разрабатывали портал. У Mail.ru есть внутренний портал, на котором можно, например, записаться к массажисту, посмотреть, что сегодня в столовой, заказать канцелярские принадлежности или новый ноутбук. Это лучший портал из тех, что я видел в разных компаниях.

В Mail.ru восемь тысяч сотрудников, и сервис работает быстро даже на небольших серверах. Мы сделали подобный портал на 200 тысяч сотрудников, и там нагрузка совершенно другая. Однако за основу мы взяли портал Mail.ru и переделали его под требования заказчика, при этом полностью переработав всю архитектуру. Так я в первый раз столкнулся с архитекторами в ИТ. Они отвечают за глобальное проектирование, определяют, какое требуется оборудование, какие сервисы заложить, какие подходы протестировать.

Сергей Красочкин, Cloud: Я считаю, что 80% успеха зависит от команды, а 20% — от методологии, которая применяется для построения процесса

Так было и в Mail.ru. Проект реализовывали «с нуля»: не нужно было переделывать чей-то старый код, вникать в какие-то сложности. Когда пишешь свое со своей командой, полностью контролируешь процесс.

В Mail.ru, когда сталкиваешься с проблемой, всегда есть, к кому обратиться. Здесь люди готовы помочь.

CNews: Вы участвовали в запуске суперкомпьютера Christofari. Первого или второго? Для каких задач может использоваться архитектура Christofari?

Сергей Красочкин: Я участвовал в запуске обоих суперкомпьютеров Christofari. Когда «Сбер» купил Christofari, начался долгий процесс сборки системы в дата-центре. Какое-то время под нее пишут софт, выпускают его альфа- или бета-версии. ПО сразу разрабатывается согласно требованиям основных пользователей. На первых порах это «Сбер», он и сейчас, наверное, остается крупнейшим пользователем.

Поскольку для него была создана программная надстройка, ML Space, суперкомпьютер Christofari стал очень удобен в плане распределенного обучения моделей, решения различных задач специалистами по данным. Раньше для такого обучения нужно было где-то достать оборудование, и, хорошо еще, если потребуется только одна видеокарта, но ее может не хватить.

Кроме того, для данных на жестком диске, например, большого датасета изображений, просто физически не хватит места. Например, есть модель DALL-E-2: она рисует картинку по тексту. Чтобы обучить такую модель на одной видеокарте, потребуется около четырех лет. Если в системе две видеокарты, обучение идет почти в два раза быстрее. Линейная зависимость: если их тысяча, то почти в тысячу раз быстрее. Имея мощности суперкомпьютера, можно в разы сократить время эксперимента.

CNews: Есть ли спрос на мощности суперкомпьютера Christofari со стороны ВУЗов, научных организаций?

Сергей Красочкин: Определенно, суперкомпьютер востребован в научной среде. Некоторые институты пользуются грантами. Для других это бесплатно.

Существует платформа, которая упрощает выделение ресурсов, ускоряет эксперименты, и студенту не нужно заботиться о создании контейнеров, о выделении памяти. Он просто нажимает кнопку «собрать образ», и у него все готово и работает.

Любая компания, у которой в штате более ста разработчиков, скорее всего, проводит какие-то эксперименты с ML-задачами

CNews: Как вы считаете, многие ли компании в мире используют машинное обучение?

Сергей Красочкин: Любая компания, у которой в штате более ста разработчиков, скорее всего, проводит какие-то эксперименты с ML-задачами. Я думаю, что если взять 1000 крупнейших компаний мира, то каждая из них в том или ином виде уже применяет машинное обучение.

В ритейле, например, используют модели для предсказания спроса. Благодаря прогнозам товар не будет пропадать, будет меньше просрочки. В масштабах оборота торговой сети снижение объема просрочки на 1% — это существенные деньги. Машинное обучение — это довольно дорогая сфера, но вложения в нее все равно будут окупаться и приносить прибыли. Маленькая компания может взять готовый кейс или воспользоваться чат-ботами. Сейчас машинное обучение может найти применение почти в любой сфере.

CNews: Перейдем к ML Space. Какие возможности предлагает сейчас данная платформа? Какие из них наиболее востребованы?

Сергей Красочкин: ML Space — это уже, наверное, вторая версия платформы для суперкомпьютера Christofari. Она была создана с учетом пожеланий многих пользователей. Типовая задача — первичное обучение моделей, для этого используются видеокарты. Второе, наверное, это инференс, когда уже обученная модель выполняет задачи, например, распознавание изображений. Есть модели, воспринимающие голосовые команды типа: «Включи свет». Или голосовой набор текста: ей диктуют, и модель пишет текст, транслирует речь в текстовый формат.

Сергей Красочкин, Cloud: В Mail.ru восемь тысяч сотрудников, и сервис работает быстро даже на небольших серверах

Существуют ограничения по ресурсам. Не каждый может собрать датасет из миллиарда картинок или позволить себе много месяцев обучать модель. Потребуется потратить несколько миллионов или сотен миллионов рублей, чтобы обучить модель качественно. Но обученную модель можно сдавать в аренду: каждый пользователь-арендатор потратит небольшие деньги.

CNews: Какие гипотезы чаще всего проверяют клиенты, какие применяют модели? Есть ли какой-то самый популярный кейс в использовании моделей?

Сергей Красочкин: Наверное, самое популярное у наших коллег из Сбер Devices (дочерней компании «Сбера», которая занимается созданием и производством «умных» устройств) — это голосовые помощники и «умные» диалоговые системы. Это боты, чат-боты. Либо OpenAl и модель DALL-E, которая рисует картинки по словам. Модель изначально была создана для английского языка, и наши специалисты переучивали ее на русский язык. С ней можно вести довольно осознанный диалог.

CNews: Есть ли какие-то барьеры для массового использования ML? Можно ли сказать, что бум применения ML-моделей уже наступил?

Сергей Красочкин: До появления облачных сервисов нужно было купить оборудование, разместить у себя в дата-центре, нанять людей, которые его соберут, будут поддерживать. Сейчас, не обладая большими финансами, можно все брать в аренду из облака, прежних барьеров нет.

Если уже есть штат программистов, которые этим занимались, то они проводят эксперименты с ML, либо внедряют готовые кейсы. Сделать что-то в новой сфере непросто. Если же есть готовый кейс, то можно протестировать — будет он работать или нет. Для бизнеса это стало на порядок дешевле.

Я думаю, что бум применения ML-моделей уже наступил. Все теории машинного обучения заложены еще в 80-х и 90-х годах прошлого века. Сейчас, из-за того, что выросли вычислительные мощности, машинное обучение стало реально применимо. Поэтому, мне кажется, что уже сейчас оно очень популярно. Возможно, машинное обучение станет еще более популярным, если произойдет какой-то технологический, технический или теоретический сдвиг, и популяризация ML ускорится.

CNews: Можете ли вы назвать аналоги ML Space в мире, и есть ли они вообще?

Сергей Красочкин: Да, аналоги есть. Но, когда мы создавали свою платформу ML Space, то не особенно на кого-то равнялись. У нас был свой, на 70% уникальный путь. В России есть «Яндекс» со своими тремя суперкомпьютерами и платформой DataSphere. Порог входа в такой бизнес крайне высок, и его могут себе позволить только крупнейшие облачные провайдеры — Google с Vertex AI, сервис Amazon SageMaker, от Microsoft — Azure. И еще DataRobot, который довольно популярен.

CNews: Как вы считаете, ваша платформа ML Space может заложить основу широкомасштабного распространения и использование искусственного интеллекта в России?

Сергей Красочкин: Заложить основу — скорее нет, чем да, потому что два суперкомпьютера Christofari — это около двух тысяч GPU. У «Яндекса» — еще около трех тысяч. Каждому студенту по одному ЦП — это только поиграться. Но, безусловно, такие платформы дают возможность исследовать задачи и обучать модели в России. Даже те, которые раньше мы даже не могли представить. Сейчас модель обучается быстрее и качественнее. Возможности большие — для тех, кто проводит какие-то глобальные эксперименты и готов за это заплатить.

Никто сейчас не готов выносить чувствительные данные за рубеж. Как обучали раньше? Были Azure или Google, и все шли к ним. В текущей ситуации, если бы не было нас и «Яндекса», то все бы встало, потому что купить «железо» нельзя, и обучать модели негде.

Судя по зарплатам в ИТ, специалистов очень не хватает, причем уже давно

CNews: В платформе ML Space и даже в суперкомпьютерах Christofari и Christofari Neo используются также процессоры Intel Xeon, куда интегрированы функции ускорения искусственного интеллекта, и используется открытая модель программирования Intel OneAPI. Это что-то дает специалистам по данным и ML-разработчикам?

Сергей Красочкин: Intel была нашим партнером. OneAPI предоставляет специалистам по данным свои библиотеки, которые позволяют в некоторых задачах ускорять процесс обучения или инференса. Есть популярные библиотеки, которыми обычно пользуется каждый специалист по данным. Это SciKit-Learn, TensorFlow или PyTorch. Можно с помощью всего нескольких строк ускорить задачи в среднем в 10-20 раз. А время — это всегда деньги.

CNews: На ваш взгляд, сейчас в России хватает специалистов, которые способны анализировать большие данные, строить прогнозные модели?

Сергей Красочкин: Судя по зарплатам в ИТ, специалистов очень не хватает, причем уже давно. А судя по зарплатам во всем мире, их не хватает везде. Год назад, у нас, наверное, было, как во всем мире — дефицит был примерно одинаковым. Сейчас, наверное, кто-то уехал, кто-то нет, но продолжают ли они работать на российские компании?

CNews: Давайте поговорим немного о контейнеризации. Каковы преимущества этой технологии? Какие риски могут быть связаны с ее применением?

Сергей Красочкин: Контейнеризация — не новая технология. Основное программное обеспечение для контейнеризации сейчас — Docker, и появилось оно примерно в 2013-2014 году. Я бы назвал контейнеризацию технологией года или даже десятилетия. Она помогает упаковывать программы в специальную оболочку, в контейнер, который изолирован от операционной системы, и внутри контейнера есть необходимая среда для функционирования приложения.

Краткая биография

Сергей Красочкин

На смену монолитной схеме пришла микросервисная архитектура, когда большой функционал делился между множеством маленьких программ, и каждая программа могла выполнять свои ограниченные функции, и делала это хорошо и очень быстро.

Потом появились контейнеры, которые упростили развертывание таких приложений. Контейнеры стали удобными для тестирования, для отладки программного кода. С помощью контейнеров сервисы можно обновлять независимо. Все быстро и удобно, при этом — легко масштабируется. Если нагрузка увеличилась, то добавляется один контейнер, он берет ее на себя. Потом еще и еще. Если же нагрузка падает, то можно убрать то, что не нужно, держать один сервис, что-то обновлять, и все работает. Для пользователя это незаметно. Поэтому контейнеры — на пике популярности. Сейчас появились оркестраторы контейнеров. Они позволяют следить за тысячами микросервисов.

CNews: Есть у вас свое видение, какой должна быть стратегия развития технологий, методология в области ИИ?

Сергей Красочкин: Что бы ни было выбрано — SCRUM или Agile, либо что-то другое, главное — это команда и проект, который она делает. Принцип Парето здесь не очень подходит, но я считаю, что 80% успеха все равно зависит от команды, а 20% — уже от методологии, которая применяется для построения процесса. Для небольших команд все эти модные методологии, мне кажется, вообще не нужны. Процесс там довольно регламентированный.

Обычно в крупных компаниях, как у нас в Cloud, на десятки человек команды есть специально обученный SCRUM-мастер, который составляет расписание, следит за всякими чатами и так далее, и это отдельная специальность, которая не нужна в маленькой компании.

В больших компаниях методологии могут быть оправданы, не зря ведущие софтверные компании их используют. Но главный принцип — быстро избавляться от плохих людей в компании, и тогда коммуникация между всеми сотрудниками будет прекрасной, все будет хорошо, и проект будет развиваться. Конечно, должен быть сильный продуктовый руководитель, лидер.

Скорее всего, если это команда из более 70 человек, то замы по каким-то направлениям тоже должны быть сильными специалистами, с огоньком в глазах, которые видят продукт в будущем. У них есть понимание, каким он должен быть, во что вырастет, на каких пользователей будет рассчитан, какие проблемы решит. Руководитель не должен видеть границ, должен быть уверен в победе и вести вперед.