Спецпроекты

На страницу обзора
Бизнес-аналитику можно ускорить в разы за счет виртуализации данных

Крупный и средний бизнес все больше полагается на принятие решений на основе данных для увеличения продаж и повышения собственной конкурентоспособности. Например, финансовые компании могут использовать данные для оценки кредитных рисков, выявления мошенничества и инвестиционного моделирования, а телеком-операторы строят  на основе данных единый профиль клиента и повышают конверсию за счет индивидуальных тарифных планов и предложений. Для анализа информации компании обычно создают платформы данных, которые должны с одной стороны обеспечивать компанию достаточную гибкость и скорость реализации новых идей, а с другой стороны минимизировать инфраструктурные издержки. Обеспечить обе характеристики могут технологии виртуализации данных, которые позволяют организации анализировать информацию из всех своих источников через единый интерфейс. Примером такой технологии является российская платформа CedrusData, основанная на open-source проекте Trino.

Что не так с типичными подходами к разработке платформы данных предприятия?

Классическая архитектура аналитической платформы представляет собой одно или несколько корпоративных хранилищ данных и озеро данных.

Корпоративные хранилища данных содержат историческую информацию в структурированном виде. Данные попадают в хранилище из операционных систем с помощью ETL-процедур. Хранилища хорошо справляются с обработкой больших объемов информации с помощью SQL-запросов, но обладают недостаточной гибкостью, так как создание новых аналитических сценариев требует вовлечение инженеров, существенно замедляя темпы внедрения инноваций. Так, время между появлением новых требований со стороны аналитика данных и появлением соответствующих данных в хранилище может составлять недели и месяцы. Кроме того, техническая архитектура корпоративных хранилищ обычно требует излишней аллокации дефицитных вычислительных мощностей и плохо подходит для облака.

Озера данных содержат сырую информацию из операционных источников, а подлежащая инфраструктура обычно представлена относительно дешевыми дисковыми массивами. Таким образом, озера данных предоставляют достаточную гибкость в выборе сценариев анализа данных, но в то же время предъявляют высокие требования к квалификации пользователей, так как преобразование сырых данных в понятные для бизнеса результаты (отчеты, графики и т.п.) является нетривиальной задачей.

Комбинирование корпоративных хранилищ и озера данных приводит к еще большим затруднениям, так как существующие инструменты не предоставляют удобного способа объединения данных из хранилищ и озера. Это еще больше замедляет темпы внедрения новых изменений и приводит к удорожании разработки.

Таким образом, ни корпоративные хранилища, ни озера данных не позволяют организациям в полной мере раскрыть потенциал своих данных.

Решение CedrusData

CedrusData это высокопроизводительная распределенная платформа, которая позволяет организациям быстро анализировать все свои данные через единый интерфейс доступа.

Так, CedrusData подключается ко всем источникам данных предприятия, будь то исторические системы (корпоративные хранилища данных, озера данных) или операционные системы (транзакционные системы, NoSQL системы, системы обработки событий и логов, и т.п.). После этого у пользователя появляется возможность отправки SQL-запросов ко всем своим данным без необходимости разработки отдельных ETL-процедур, что существенно повышает скорость разработки. Поддержка SQL позволяет пользователям легко подключаться к CedrusData из их любимых приложений, будь то BI инструменты, Jupyter Notebook или самостоятельно разработанное приложение.

CedrusData это высокопроизводительная распределенная платформа, которая позволяет организациям быстро анализировать все свои данные через единый интерфейс доступа.

Кроме того, так CedrusData умеет автоматически преобразовывать сырые данные из озера данных в структурированный вид, у администраторов платформы данных появляется возможность перенести нагрузку из дорогостоящих хранилищ данных в пользу более дешевых озер данных.

Еще одной особенностью CedrusData является эластичное масштабирование. Кластер CedrusData представляет собой наборы вычислительных узлов, которые обрабатывают запросы, но не хранят данные. Такая архитектура, называемая shared storage, предоставляет администраторам системы беспрецедентную гибкость в выборе архитектуры платформы данных, так как узлы CedrusData могут быть легко добавлены или выведены из кластера в любой момент. Так, CedrusData может быть использована как единый центральный кластер для всех пользователей, так и как множество независимых кластеров, реализуя архитектуру data mesh. Кроме того, в отличие от корпоративных хранилищ данных CedrusData может быть эффективно развернута в облаке, в том числе по модели pay-as-you-go.

Таким образом, при использовании CedrusData бизнес получает многократное увеличение скорости разработки новых аналитических сценариев, а инженеры платформы данных получают гибкость в выборе технической архитектуры платформы данных и существенную экономию ресурсов.

«CedrusData является центральным компонентом современных аналитических архитектур, от понятных и проверенных временем data fabric, до инновационных lakehouse и data mesh. – говорит Владимир Озеров, генеральный директор компании-разработчика CedrusData “ООО Кверифай Лабс".

В чем экономический эффект от создания единой платформы

CedrusData предоставляет единую точку доступа ко всем данным организации. Для бизнеса это дает возможность быстрой реализации новых аналитических сценариев, сокращая время внедрения изменений с недель и месяцов до дней и даже часов. Наличие SQL-интерфейса позволяет вовлекать в процессы анализа данных большее количество пользователей, наращивая интенсивность генерации новых идей и гипотез.

Например, телекоммуникационные компании получают возможность прозрачной интеграции данных биллинга и данных о действиях пользователя из разных источников для формирования персонализированных предложений, повышая лояльность клиентов и конверсию. При этом высокая скорость внедрения новых сценариев позволяет аналитикам данных проверить гораздо большее количество гипотез и построить более эффективную модель, чем при использовании традиционных корпоративных хранилищ данных.

Финансовые компании получают возможность интегрированного анализа действий клиентов для снижения мошенничества и рисков неуплаты. Ритейлеры могут использовать CedrusData для построения единого профиля клиента, оптимизации логистических маршрутов и выкладки товаров. Промышленные компании и холдинги могут агрегировать данные из различных систем, включая датчики оборудования, для создания цифровых двойников, оптимизации режимов работы оборудования и планирования графика обслуживания, тем самым повышая отгрузку товарной продукции.

С технической точки зрения CedrusData позволяет компаниям снизить затраты на инфраструктуру за счет уменьшения потребности в дорогостоящих хранилищах данных, уменьшения дублирования данных, снижения нагрузки на высококвалифицированных инженеров платформы данных.

«Наш продукт позволяет компаниям, с одной стороны, решать более широкий спектр аналитических задач, с другой стороны – экономить на технической инфраструктуре. Состоятельность данного подхода подтверждена множеством успешных внедрений технологии Trino в компаниях Fortune 500, включая сценарии одновременной обработки данных петабайтного масштаба тысячами пользователей в крупнейших мировых технологических компаниях», – говорит Владимир Озеров.

Скорость внедрения

Отличительной особенностью CedrusData является возможность быстрого развертывания в любом окружении без необходимости переноса существенных объемов данных и обязательной переработки существующей архитектуры платформы данных.

Кластер CedrusData может быть развернут в течении нескольких минут, после чего пользователи сразу же получают возможность анализа данных из подключенных источников. Конфигурация источников данных является является прямолинейной задачей, которая может быть быстро решена как администраторами системы, так и рядовыми пользователями.

«Полноценное развертывание пилотного проекта обычно требует не более недели. Минимальный пилот может быть в развернут на одном сервере или даже рабочей станции сотрудника, после чего можно наращивать размер кластера по мере необходимости.» – говорит Владимир Озеров.

При этом CedrusData не заставляет организацию в обязательном порядка радикально пересматривать архитектуру платформы данных. Наоборот, архитектура CedrusData поощряет одновременную работу кластера вместе с другими системами. Например, одна группа пользователей может работать с озером данных через SQL-интерфейс CedrusData, решая задачи интерактивной или исследовательской аналитики, тогда как другая группа пользователей может работать с тем же озером данных через Apache Spark для построения сложных ML-моделей.

Кому актуален продукт и какова его цена

Продукт CedrusData актуален для всех компаний, которые активно используют данные для принятия решений. «Чем больше объем данных, чем больше источников данных, и чем полнее вы хотите раскрыть потенциал своих данных для роста продаж и снижения издержек – тем актуальнее для вас внедрение CedrusData. Порог входа расположен на уровне 2-5 Терабайт данных, а потолок не ограничен – наш продукт обеспечивает работу и с данными петабайтного масштаба» – говорит Владимир Озеров.

CedrusData особенно востребована у организаций, которые достигли предела классических платформ данных на основе корпоративных хранилищ, и платформы данных которых уже не выдерживают нагрузки при имеющемся росте объемов данных и количества запросов к ним. Платформа CedrusData позволяет таким компаниям создать масштабируемое решение, которое не только позволит преодолеть накопленные проблемы, но и которое сможет органично расти вместе с бизнесом, обеспечивая потребности организации в анализе данных на многие годы вперед.

«Мировая практика внедрения решений подобного класса показывает, что наибольшую выгоду получают финансовый сектор, телеком, ритейл, а также промышленность и технологические компании. У таких компаний много данных, много источников, высокие требования бизнеса, и большое количество накопленной боли от работы с классическими корпоративными хранилищами. Для таких компаний мы выступаем надежными партнерами, которые готовы чутко и аккуратно провести бизнес к новой целевой архитектуре управления данными.» - говорит Владимир Озеров.

Стоимость CedrusData обычно начинается от 1 млн рублей. Продукт доступен в двух форматах: лицензия на год + поддержка на тот же срок или бессрочная лицензия + годовая подписка на поддержку. Финальная стоимость зависит от количества логических ядер, работающих в составе решения на стороне конкретного заказчика.

Что дальше

CedrusData позволяет организациям эффективно решать наиболее востребованные задачи анализа данных, но предела совершенству не существует. В настоящее время вендор сосредоточен на разработке ряда критических улучшений ядра Trino, которые значительно повысят скорость обработки данных, а значит позволят клиентам CedrusData еще больше повысить эффективность использования ресурсов. Вендор также занимается разработкой нового пользовательского интерфейса, который призван демократизировать доступ к данным организации для большего количества пользователей.

«Наша философия проста – продукт должен быть быстрым и удобным, – говорит Владимир Озеров. – Наши клиенты хотят думать о создании бизнес-ценности, а не заниматься бесконечной борьбой с технологиями. У нас очень сильная техническая команда, а наши инженеры в прошлом набили множество шишек, разрабатывая популярные продукты по обработке данных. Накопленный опыт позволяет нам уверенно двигаться к реализации амбициозных технических задач, которые меняют представление о том, как организации работают с данными.»

erid:Kra23h7iiРекламодатель: ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "КВЕРИФАЙ ЛАБС"ИНН/ОГРН: 7811766769/1217800163790Сайт: www.cedrusdata.ru

Интервью обзора

Рейтинги

Крупнейшие поставщики российских продуктов и связанных с ними услуг 2022
№ 2022 Название компании Общая выручка от продажи продукции российских разработчиков или связанных с нею услуг в 2022 г., ₽тыс. с НДС *** Рост «российской» выручки 2021/2022, %
1 1С * 64 908 800 -7,8%
2 Лаборатория Касперского 50 729 920 0,0%
3 Rubytech 26 330 877 127,6%
Подробнее