Разделы

Цифровизация

Data-mesh: определен главный тренд в области хранения и доступа к данным

Любая работа с данными концентрируется на трех параметрах: time, risk, money. В текущих реалиях для того, чтобы каждый из этих компонентов оставался конкурентоспособным, необходимо применять новые подходы к работе с данными. Один из главных трендов в структуре работы с аналитикой — data-mesh, который уже успешно реализуется в международных бигтех-компаниях.

ИТ-департамент не успевает за скоростью принятия решений

На протяжении последних двух десятилетий корпоративные данные в России и мире формировались вокруг централизованных хранилищ и единых аналитических платформ. Модель «единого центра данных» позволяла обеспечивать контроль и согласованность информации. Однако с ростом количества источников, переходом к микросервисной архитектуре и повышением требований к скорости аналитики появились системные ограничения.

Централизованные data-команды оказываются перегружены, изменения внедряются медленно, а бизнес все чаще сталкивается с ситуацией, когда данные есть, но воспользоваться ими оперативно невозможно. Модель становится громоздкой и неэффективной.

Значимые решения делаются на основе анализа данных уже давно, но сейчас как никогда важна скорость, особенно в сфере финтех или horeca, где буквально весь потребительский опыт строится на аналитике. Именно скорость становится главным фактором конкурентоспособности. В модели, где сложно определить, кто конкретно отвечает за качество данных, появляется «бутылочное горлышко», которое задерживает обработку запросов и реагирование на потребности бизнеса. В результате неактуальный подход к хранению данных приводит к прямым финансовым потерям.

Data Mesh — это «парадигма», набор архитектурных и организационных принципов

Новые подходы требуются в том числе для построения технологии интеллектуального интернета вещей и интеграции ИИ-сервисов в целом, где оперативный анализ данных становится основой решений. Централизация сильно ограничивает развитие data-driven инициатив на уровне бизнес-подразделений.

Data-mesh — волшебная таблетка быстрых решений

Понятие Data Mesh как архитектуры создания распределенных пайплайнов данных впервые ввела в обиход Жамак Дегани в статье How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh в 2019 году. Сегодня он активно реализируется в международных ИТ-компаниях и уже часто обсуждается на российском рынке.

Data Mesh — это «парадигма», набор архитектурных и организационных принципов, а не просто очередной инструмент или решение «под ключ».

Data Mesh — архитектурная концепция, предполагающая отказ от жесткой централизации в пользу доменно-ориентированной модели управления. Ответственность за сбор, качество и доступность данных передается бизнес-подразделениям, которые формируют собственные дата-продукты. При этом ИТ-департамент сосредотачивается на создании универсальной платформы и единых правил взаимодействия. Data Mesh стал логичным развитием идей распределенных архитектур и отражает переход от управления хранилищами к управлению экосистемой данных как стратегическим активом.

Основные принципы системы data-mesh

  • Владение данными по доменам (Domain Ownership)

Каждое бизнес-подразделение становится владельцем своих данных и отвечает за их качество, структуру, актуальность и доступность. Данные перестают быть зоной ответственности только ИТ и переходят под контроль тех, кто лучше понимает их смысл — маркетинга, продаж, логистики, производства и т.д. Это особенно актуально для крупных холдингов и госкорпораций, где данные традиционно воспринимались как технический актив ИТ-службы.

  • Данные как продукт

Данные рассматриваются как полноценный цифровой продукт с потребителями, характеристиками качества и жизненным циклом. У каждого дата-продукта есть владелец, описание, прозрачные правила доступа, SLA, метрики качества и ответственные лица. Работа с данными становится структурированной и измеримой.

  • Платформа самообслуживания

Единая среда, которая позволяет доменным командам самостоятельно создавать, публиковать и использовать данные без постоянного участия централизованной ИТ-команды. Платформа предоставляет стандартизированные инструменты для хранения, обработки, аналитики и управления данными. То есть другие участники самостоятельно могут находить и изучать нужные данные.

  • Федеративное управление

Общие правила, стандарты безопасности и качества задаются централизованно, но реализуются на уровне доменов. В итоге обеспечивается баланс между автономией команд и контролем.

В мировой практике data-mesh реализуется в том числе на базе продукта крупной американской компании, которая специализируется на разработках в сфере облачных технологий, обработки и хранения данных, аналитики и искусственного интеллекта. Ее платформа обеспечивает технологическую основу: домены отражаются через рабочие пространства (workspaces), каталог данных (Unity Catalog) и механизм шеринга (Delta Sharing). Создается распределенность, но с сохранением общего контроля.

Меньше рутины, больше инженерного творчества: Антон Атоян, «СберТех», — о том, как ИИ меняет разработку
Цифровизация

Архитектура реализуется через два подхода: Harmonized Data Mesh и Hub & Spoke Data Mesh. В первом случае домены получают большую автономию, но при этом применяют единые шаблоны платформы; во втором случае создается центральный data-hub, который управляет общей инфраструктурой и сервисами каталогизации, а домены публикуют свои продукты через него.

Американский разработчик крупнейшей в мире площадки для онлайн-коммерции, поставщик облачных и других услуг, также разработал сервис управления данными, посредством которого клиенты могут быстро и легко каталогизировать, обнаруживать, совместно использовать и контролировать данные, хранимые в компании, локальной среде и сторонних источниках.также предлагает готовое решение для управления дата-продуктами в распределенных службах и доменах. Сервис позволяет каталогизировать, открывать для поиска и безопасно предоставлять доступ к данным, хранящимся в компании, на premises или у третьих сторон.

Основная архитектурная схема: в центральном (управляющем) аккаунте разворачивается портал, каталог и процессы публикации; доменные аккаунты публикуют свои дата-продукты; потребители через портал ищут и запрашивают доступ к данным.

Сервис реализует рабочие процессы публикации, подписки и выполнения доступа, обеспечивая автоматизацию части процесса: после одобрения подписки сервис создаёт необходимые разрешения для доступа к данным.

Когда data-mesh будет в России

Про доменную структуру начинают активно говорить и на российском рынке. На данный момент около 24% технических директоров оценивают data-mesh как наиболее оптимальное решение в работе с данными в перспективе 3-х лет.

Из кейсов Data Mesh в России, например, можно отметить реализацию на базе платформы крупной технологической компании. Основные компоненты платформы доступны как готовые сервисы: Cloud Storage (S3-хранилище), Cloud Spark, Cloud ML Platform и т.д. Начинают работать с сервисами отечественных вендоров, у которых есть поддержка доменной изоляции ресурсов, также банки и ритейлеры. Каждое подразделение компании (например, розница, риски, финансы) имеет ресурсы для решениях своих задач.

Postgres Pro Enterprise 18: встроенный in-memory кеш и новые горизонты отказоустойчивости
Цифровизация

Недавно в реестр российского ПО вошел еще один продукт, среда разработки и развития платформ данных, которая в том числе поддерживает и структуру data mesh. Также недавно платформа российского разработчика системы сбора, хранения и обработки больших данных на базе open source технологий выпустила релиз о возможностях сервиса для хранения и обработки данных в паттерне Data-mesh.

По прежнему внедрение data-mesh подхода ограничивают факторы недостатка квалифицированных ИТ-кадров и сложность изменения структуры работы — 27% отмечают трудность введения новых подходов. При этом переход на новую парадигму требует как инвестиций со стороны бизнеса (на разработку централизованной платформы, обучение персонала, перестроение процессов), так и достаточного количество времени на внедрение в целом. Более того, от сотрудников требуется и высокая степень квалификации в целом, так и эффективная коммуникация между доменами.

Выводы

Если ранее данные рассматривались как вспомогательный ресурс для отчётности, то сегодня они становятся основой для операционного управления, прогнозирования и автоматизированных решений. Бизнес ожидает от аналитики скорости, гибкости и автономности, что невозможно обеспечить при сохранении традиционной модели, где каждый запрос проходит через централизованную ИТ-функцию.

Data Mesh — не просто новый тренд, а смена парадигмы в управлении данными, которая со временем точно будет реализована во всех компаниях. Такой подход требует от организаций готовности к изменениям и гибкости, а также инвестиций в архитектуру. Но при успешной реализации Data Mesh обеспечит компаниям быстрое развитие: повысит эффективность и точность работы, усилит маркетинг и основные бизнес-решения.

Роман Дубинин