Обзор: Аналитика 3.0 – 2023 - Как построить корпоративное хранилище данных за 4 месяца: кейс платформы цифровой логистики

Обзор: Аналитика 3.0 – 2023

20 Июля 2023 18:30 20 Июл 2023 18:30

Как построить корпоративное хранилище данных за 4 месяца: кейс платформы цифровой логистики

Эффективно организованное корпоративное хранилище данных способно вывести бизнес на новый уровень. Оно, например, помогает компании сформировать единый слой данных, который позволяет получать самую полную информацию о бизнес-процессах, внедрять новые показатели эффективности, сегментировать клиентскую базу, в том числе с использованием технологий машинного обучения. Выполнить проект подобного масштаба всего за 4 месяца смогла группа компаний «Монополия» — разработчик логистической платформы Monopoly.Online. В качестве основы компания использовала сервисы платформы данных от Yandex Cloud. А помогла в реализации команда BI.Qube, которая предложила использовать оригинальную архитектуру и собственные инструменты для автоматической миграции данных.

Зачем понадобилась миграция

Цифровая платформа Monopoly.Online (ГК «Монополия») объединяет сервисы, необходимые для организации грузоперевозки, от поиска груза или перевозчика до экономии расходов в рейсе на топливе и придорожных услугах. Компания развивает проект «Монополия. Бизнес», в котором водитель становится предпринимателем и владельцем собственного грузового автомобиля без первоначального капитала.

Выстроить корпоративное хранилище данных компании потребовалось по целому ряду причин.

«Современная цифровая логистическая цепочка предусматривает работу с большим объемом данных различного формата, — объясняет Дмитрий Власкин, руководитель направления аналитики данных группы «Монополия». — Например, информация по маршруту из рейса, отчеты о погрузке и разгрузке, простоях, оплатам и тд. Благодаря использованию инструментов платформы данных Yandex.Cloud и российского ПО BI.Qube, мы увеличили скорость получения данных из источников, существенно сократили затраты на обработку данных и увеличили количество специалистов, работающих с системой: теперь это не только специалисты от бизнеса, обрабатывающие оперативные данные, но и специалисты по глубокому анализу и обработке данных. В результате компания получила возможность получать быстрый доступ к любым исходным данным, объединять их и принимать управленческие решения».

Компания создала несколько сервисов, которые помогают в ежедневной работе: при поиске и размещении грузов на платформе, организации предпринимательской деятельности, автоматизации АЗС и придорожных сервисов. Все они генерируют разнородные данные, для получения, хранения и обработки которых используются современные технологии: базы данных PostgreSQL, Microsoft SQL Server, MySQL, облачное хранилище OneDrive, сервис анализа Google BigQuery, брокер сообщений Apache Kafka, интерфейс взаимодействия Rest API и другие.

Компания решила локализовать «озеро данных», а также повысить гибкость и безопасность инструментов доставки и хранения данных в облаке.

Чего хотели добиться

После анализа решили, что требуется хранилище объемом более 1ТБ. Также необходима была обработка данных для задач оперативной и управленческой аналитики, для автоматизированного сбора и обработки данных и для построения self service аналитики в компании. Это бы пригодилось для скоринга клиентской базы, анализа план-факта продаж и рекомендаций рейсов грузоперевозчикам.

Кроме того, нужно было обрабатывать статистику сквозной аналитики для маркетинговых кампаний и анализировать данные с транспорта в системах мониторинга логистики.

С этой задачей представители Monopoly.Online пришли к экспертам команды BI.Qube, которые реализуют проекты по управлению корпоративными данными, управленческой аналитике, решению оптимизационных задач.

«Более двух лет заказчик пользовался облаком Microsoft. Облачные технологии давали возможность быстро масштабировать инфраструктуру и выделять мощность под растущую аналитическую нагрузку. Заказчик пришел с идеей разработки сценариев резервирования облака Azure, но в силу страновых рисков мы предложили реализацию независимой от вендора архитектуры», — рассказал Дмитрий Поликовский, директор по развитию BI.Qube.

Для реализации новой архитектуры хранилища рассматривались несколько решений от разных вендоров. В итоге было решено остановиться на платформе данных Yandex Cloud.

«Мы выбрали Yandex.Cloud, так как платформа предоставляла широкий набор компонентов open source в виде управляемых сервисов для работы с данными, быстрое и простое масштабирование по производительности, — рассказывает Дмитрий Поликовский. — Нельзя не отметить лояльную партнерскую программу, отзывчивую команду и удобные каналы коммуникаций».

Стадия реализации

На весь проект ушло 4 месяца.

«Это интересный и непростой с технической точки зрения проект, который потребовал применения гибких подходов к разработке и нетривиальных решений, — объясняет главный архитектор BI.Qube Борис Бондарев. — Мы имели дело с большим количеством разнородных источников, сложной логикой обработки данных и высокими требованиями к контролю их качества. Не скрою, что это был наш первый проект, где сошлись требования к срочности, применению open source и работе с большими объемами данных. И мы успешно справились благодаря команде специалистов, обладающих межплатформенной экспертизой построения аналитических хранилищ в соответствии с современными методологиями Data Vault, DevOps и Agile».

Чтобы преодолеть все трудности, было решено не просто сменить платформу данных, но и внедрить специальные инновационные инструменты Low-code/No-code для оркестрации open source продуктов. В BI.Qube уточняют, что если применять визуальные интерфейсы для разработки, то такие проекты в целом требуют меньше времени и денег, а еще требования к квалификации ИТ-специалистов заказчика не такие строгие.

Для решения этой задачи применили собственный продукт — Метакомпоненты BI.Qube, выполняющий автоматическую миграцию данных, контроль их качества, подключение источников, построение масштабируемой модели.

Модули продукта адаптированы под стек open source и включают: блок извлечения и загрузки данных MetaStaging, MetaVault — для построения масштабируемой модели, MetaControl — для обеспечения качества, MetaMasterData — для управления основными данными, и блок оркестрации MetaOrcestrator, а также блок шифрования, базу данных хранения настроечной информации и блок формирования параметров запуска интеграции.

«Благодаря использованию инструментов BI.Qube, трудозатраты на проект четко прогнозируемы, — объясняет Дмитрий Поликовский. — В целом применение low-code/no-code инструментов для автоматизированной миграции и последующего масштабируемого развития позволяет быстро и предсказуемо перейти с одной платформы на другую. При этом уменьшается стоимость владения за счет отказа от лицензий на проприетарное ПО для работы с данными».

Сама миграция с платформы Microsoft включала автоматический перенос всех данных (таблицы, представления, запросы) и автоматизированную миграцию ELT процессов. В итоге все системы-потребители теперь могут использовать ту же модель данных, что и была на Microsoft, только в качестве СУБД используется Greenplum.

Какие результаты получили

Сейчас система позволяет генерировать более 50 BI-отчетов по 300 метрикам в модели данных (EDM). Более 400 пользователей регулярно обращаются к данным из хранилища, из них 200 ежедневно выполняют запросы для построения отчетов в режиме самообслуживания. Email-рассылки с метриками регулярно получают логисты, закупщики и бизнес-партнеры.

В новом хранилище доступны: автоматизированная документация моделей, оцифрованная пирамида метрик с возможностью моделировать показатели, сквозная аналитика и LTV по каждому грузоперевозчику и грузовладельцу.

Можно также искать заказы на логистическом маркетплейсе исходя из расчета потенциально релевантного предложения для грузоперевозчиков в моменте на платформе.

«Что касается смены платформы с Microsoft Azure на Yandex Cloud, заметнее всего то, что техподдержка Yandex Cloud более открыта и отвечает намного оперативнее, — отмечает Дмитрий Власкин. — Развивать аналитическое решение теперь будет проще за счет managed PaaS сервисов для работы с данными и маркетплейса с готовыми продуктами на виртуальных машинах».

Кроме того, большие объемы данные теперь обрабатываются быстрее при выполнении сложных SQL-запросов за счет распараллеливания операций и концепции Shared Nothing — когда каждый процессор имеет доступ только к своей локальной памяти и нет необходимости в потактовой синхронизации процессоров.

Также обеспечена простота горизонтального масштабирования до сотен узлов и отказоустойчивость — за счет зеркалирования и резервирования.

«Плюсом сюда добавляются преимущества облачного решения — отсутствие затрат на собственную локальную инфраструктуру, оптимизация производительности и плата только за реальное потребление ресурсов, — добавляет Власкин. — Мы получили легкое управление ресурсами и можем запускать быстрее аналитические продукты, требующие больших вычислений, не ожидая покупки дополнительных серверных мощностей. Это позволяет нам повышать конкурентоспособность на рынке логистики».

Также с помощью нового стека появилась возможность объединять данные из разных систем — это сократило скорость подготовки регулярной отчетности в пять раз. Благодаря оперативной аналитике маркетинг может быстрее реагировать на изменение профилей клиентов — это стало возможным за счет объединения данных Clickstream и данных из ERP и CRM с последующей передачей этих данных в CDP систему.

Платформа данных Yandex Cloud и инструменты BI.Qube позволяют быстро тестировать новые концепции и легко масштабировать полученные решения. Кроме того, для компании открылись возможности развития с использованием сервисов машинного обучения.

■ erid:Kra23t9skРекламодатель: ООО «АйТи Про»ИНН/ОГРН: 7718666590/1077760500950Сайт: https://biqube.ru/

Подписаться на новости