«Яндекс» первым в мире запускает машинное обучение в публичном облаке на бессерверных технологиях
На конференции Yandex Scale, открывшейся 23 сентября 2020 г., было представлено масштабное обновление облачной платформы «Яндекса». В скором времени пользователям Yandex.Cloud станут доступны новые услуги на базе технологий бессерверных вычислений, в том числе при разработке моделей машинного обучения с помощью сервиса Datasphere, распределенная отказоустойчивая NewSQL-СУБД «Яндекса» и другие сервисы для хранения и управления данными.Масштабное обновление облака «Яндекса»
«Яндекс» запускает сервис для разработки моделей машинного обучения, в котором впервые в мировой практике публичных облаков применена технология бессерверных вычислений. 1 октября 2020 г. отечественная компания откроет общий доступ к облачному сервису для разработчиков машинного обучения Yandex Datasphere, который включает несколько уникальных функций, которых, по заявлению представителей «Яндекса», нет в других публичных облаках.
Помимо Datasphere, «Яндекс» запускает ряд новых и обновленных облачных сервисов, а также открывает общий доступ к некоторым из представленных ранее. Так, облачная платформа «Яндекса» («Яндекс.Облако» или Yandex.Cloud) пополнилась сервисами с технологиями бессерверных вычислений. К четырем таким сервисам, анонсированным в 2019 г., добавились два новых – Yandex API Gateway и база данных Yandex Database в бессерверном режиме. Фирменная распределенная отказоустойчивая NewSQL-СУБД «Яндекса», к слову, сейчас находится на стадии предосмотра и доступна ограниченному числу пользователей по запросу. Однако уже 25 сентября 2020 г. она перейдет в статус общедоступной.
Также на платформе Yandex.Cloud запущены четыре новых сервиса для хранения и управления данными, два из которых упрощают перенос данных между любыми источниками.
Наконец, в маркетплейсе Yandex.Cloud появился раздел «Геослои», в котором собраны обезличенные геоинформационные данные от партнеров сервиса, которые можно обрабатывать при помощи сервиса бизнес-аналитики Yandex Datalens. В новом разделе сейчас доступен контент двух партнеров – «Центра пространственных исследований» и Росстата, а также два примера геоаналитики от самого «Яндекса» — «Аудитория: интересы и соцдем» и «Организации: спрос и предложение».
Нововведения платформы Yandex.Cloud были представлены «Яндексом» в рамках конференции Yandex Scale 2020, которая стартовала 23 сентября 2020 г.
Сервисы с технологиями бессерверных вычислений
Бессерверные (serverless) вычисления – это такая организации платформенных облачных сервисов, при которой облако автоматически и динамически управляет выделением вычислительных ресурсов в зависимости от пользовательской нагрузки.
При использовании технологий бессерверных вычислений платформа автоматически определяет, к примеру, увеличение числа обращений пользователей к приложению компании и выделяет необходимые для его стабильной работы ресурсы. Как только нагрузка на приложение снижается, уменьшается и количество задействованных для его работы мощностей. Это позволяет пользователям перейти на оплату по фактическому потреблению сервисов, что, по оценке представителей «Яндекса», позволяет добиться значительной экономии.
На конференции Yandex Scale были анонисрованы два новых сервиса на базе бессерверных технологий. Это Yandex API Gateway и база данных Yandex Database в режиме serverless. Таким образом, экосистема бессерверных технологий облака «Яндекса» теперь включает в себя шесть сервисов. Это Yandex Object Storage – универсальное масштабируемое решение для хранения данных; API Gateway – сервис для создания и управления API; запуск кода в виде функций – Yandex Cloud Functions; универсальное масштабируемое решение для обмена сообщениями между приложениями – Yandex Message Queue; сервис интернета вещей Yandex IoT Core и СУБД – Yandex Database.
По мнению руководителя Yandex.Cloud Алексея Башкеева, в облаке «Яндекса» впервые в России собраны самые необходимые технологии хранения и обработки данных для решения актуальных задач и бизнеса, которые могут работать в бессерверном режиме.
СУБД «Яндекса»
Yandex Database (YDB) – это распределенная отказоустойчивая NewSQL СУБД, которую «Яндекс» представил в октябре 2019 г. С момента анонса СУБД была доступна в облаке «Яндекса» в некоммерческом режиме предпросмотра по запросу. Сервис, по данным официального сайта Yandex.Cloud, станет общедоступным 25 сентября 2020 г.
YDB – внутренняя разработка «Яндекса», которая, в частности применялась в «Поиске», голосовом помощнике «Алиса», «Яндекс.Коллекциях», «Яндекс.Мессенджере» и на сайте «Авто.ру».
СУБД, как утверждают разработчики, обеспечивает высокую доступность и масштабируемость, и, в то же время, строгую консистентность и поддержку ACID-транзакций. Для запросов используется диалект языка запросов SQL – YQL.
YDB доступна для использования в двух режимах. В режиме бессерверных вычислений пользователь оплачивает операции, осуществляемые с данными. В режиме c выделенными инстансами оплачиваются выделенные вычислительные ресурсы на повременной основе. В режиме бессерверных вычислений предлагает слой совместимости с API Amazon DynamoDB.
Сервис для разработчиков МО Yandex Datasphere
С 1 октября 2020 г. в открытый доступ выходит облачный сервис для разработчиков машинного обучения Yandex Datasphere. Сервис призван снизить стоимость создания и эксплуатации моделей машинного обучения, автоматически управлять объемом и типом вычислительных ресурсов, сократить потерю времени на создание и организацию среды разработки.
В Datasphere применена технология бессерверных вычислений при разработке моделей машинного обучения. Это, как утверждают в «Яндексе», первый в мире случай использования данной технологии в публичных облаках. Технология автоматизирует управление ресурсами и позволяет добиться значительной экономии. В Datasphere при редактировании и просмотре кода не задействуются вычислительные ресурсы обычного процессора (CPU) или графического ускорителя (GPU). Виртуальная машина нужного типа подключается только на время непосредственных расчетов (обучение моделей, запуск, другие вычисления). В итоге клиент платит только за фактически использованный ресурс. Время простоя виртуальной машины, редактирования и просмотра кода сервисом не тарифицируется. По результатам тестирования Datasphere, проведенного «Яндексом», время простоя вычислительных мощностей при разработке машинного обучения составляет 50–70%.
Другая уникальная для публичных облаков функция, реализованная в Datasphere – бесшовное переключение между разными типами вычислительных ресурсов. То есть в рамках одного сценария обучения модели пользователь может применять разные типы виртуальных машин – экономичные с CPU и быстрые с GPU. Прогресс обучения модели при этом сохраняется.
Наконец, последняя функция Datasphere, по заявлению представителей «Яндекса» отсутствующая в других облаках, – сохранение версий расчетов модели, включая данные, код и состояния. То есть достигнутый прогресс в обучении не теряется, и его можно воспроизвести, если такая необходимость возникнет в будущем.
Новые сервисы для хранения и управления данными
С 23 сентября 2020 г. всем желающим пользователям Yandex.Cloud открыт доступ к новому сервису Data Transfer. Он позволяет без остановки работы приложений переносить данные между СУБД, вне зависимости от того, где они развернуты. Data Transfer помогает выполнить миграцию баз данных из других облачных платформ или локальных баз данных в сервисы управляемых баз данных облака «Яндекса». Кроме того, с помощью Data Transfer можно перемещать данные между различными базами данных на самой платформе Yandex.Cloud и настраивать резервное копирование.
Также в открытый доступ вышел сервис Managed Kafka – система потоковой передачи данных в аналитические системы. Добавлены сервис поиска и анализа данных Elasticsearch и одна из наиболее популярных в мире коммерческих систем управления базами данных для работы в экосистеме продуктов Microsoft SQL Server.
Всего на платформе Yandex.Cloud теперь доступно девять сервисов управляемых баз данных, закрывающих большинство сценариев хранения и обработки данных.
Краткая история облака «Яндекса»
Собственная облачная платформа «Яндекса» стала доступна всем желающим в декабре 2018 г. Публичному запуску платформы предшествовало трехмесячное тестирование партнерами компании в закрытом режиме.
«Облако» позволяет получить доступ к масштабируемой виртуальной инфраструктуре, сервисам управления базами данных, распознавания и синтеза речи, машинного перевода и прочим услугам. Центры обработки данных «Яндекс.облака» расположены в России, что позволяет пользователям облачных услуг соблюдать закон «О персональных данных».
В начале апреля 2019 г. в «Облаке» был запущен сервис визуализации и сопоставления пользователями своих корпоративных данных, позволив «Яндексу» выйти на рынок облачной бизнес-аналитики, где своими конкурентами компания видит Google Data Studio и Microsoft Power BI.
В конце апреля «Яндекс.облако» открыло доступ к собственной технологии компьютерного зрения, ранее применявшейся только в проектах «Яндекса». Сторонние разработчики получили возможность встраивать в свои программы функции распознавания текста, классификации изображений и определения присутствия людей на фотографиях.
В ноябре 2019 г. «Яндекс.облако» стало первым официальным партнером MongoDB в России. В рамках партнерства был запущен сервис Managed Service for MongoDB на основе актуальной версии СУБД, поддерживающей ACID-транзакции на уровне шардированного кластера.
В декабре 2019 г. был представлен инструмент Yandex IoT Core – универсальный сервис создания продуктов для интернета вещей (IoT). Сервис обеспечивает двусторонний обмен сообщениями с IoT-устройствами по протоколу MQTT.
В феврале 2020 г. «Яндекс» сообщил о том, что «Облако» стало первой в России и СНГ публичной облачной платформой, выстроившей управление информационной безопасностью по стандарту ISO/IEC 27017:2015 и обеспечившей защиту персональных данных пользователей по международному стандарту ISO/IEC 27018:2019.