Разделы

Цифровизация Big Data

DIS Group представила Lakehouse-платформу «Селена»

Компания DIS Group представила платформу данных «Селена» — современное российское решение класса Data Lakehouse, предназначенное для высокоскоростной обработки и анализа больших объемов структурированных и неструктурированных данных. Платформа позволяет обрабатывать запросы в 10 раз быстрее аналогов благодаря использованию векторных вычислений и MPP-архитектуры.

Платформа «Селена» сочетает в себе преимущества традиционных хранилищ данных и современных Data Lakehouse, обеспечивая большую скорость аналитической обработки информации. Благодаря использованию передовых технологий векторных вычислений и массово-параллельной архитектуры (MPP) система демонстрирует десятикратное превосходство в скорости выполнения запросов по сравнению с аналогичными предложениями на рынке.

Платформа предназначена для обработки как небольших, так и экстремально больших объемов информации, включая хранение и анализ информации свыше 100 петабайт. Архитектурное решение позволяет развертывать систему как в облачной инфраструктуре, так и в рамках локальных дата-центров, что обеспечивает гибкость при внедрении в различных отраслях.

Особое внимание разработчики уделили совместимости с современными стандартами хранения данных. Платформа поддерживает работу с любыми объектными хранилищами, совместимыми с S3-протоколом, включая популярные решения MinIO и Ceph, а также отечественную платформу «Закрома». Наряду с этим сохраняется возможность интеграции с распределенной файловой системой HDFS, что позволяет использовать «Селену» в уже существующих Hadoop-инфраструктурах.

В основе платформы лежит высокопроизводительный движок StarRocks, который обеспечивает стабильную работу даже при экстремальных нагрузках. Система демонстрирует особую эффективность при выполнении сложных аналитических запросов в условиях высокой конкуренции за вычислительные ресурсы. Это делает решение особенно востребованным в таких сферах, как финансовая аналитика, промышленный интернет вещей (IIoT), телекоммуникации и государственный сектор.

Для обеспечения максимальной скорости доступа к данным в «Селене» реализована комбинация передовых технологий обработки информации. Колоночная организация хранения данных в сочетании с многоуровневой системой кэширования (включая кэширование запросов, промежуточных результатов и готовых отчетов) позволяет минимизировать время отклика системы. Дополнительное ускорение достигается за счет использования cost-based оптимизатора запросов, материализованных представлений и специализированных агрегационных таблиц.

Интеграция искусственного интеллекта посредством реализации MCP-сервера позволяет пользователям формулировать запросы к базе данных на естественном языке, автоматизировать создание блокнотов и взаимодействовать с хранилищем в формате чата.

Иван Аксененко, ЦБИ: Российская ИБ-индустрия не должна больше полагаться на чужое «железо»
Безопасность

Селена совместима с популярными BI-инструментами и аналитическими платформами, такими как Tableau, Apache Superset, Power BI, Luxms BI, FineBI, PIX BI, «Форсайт», «Навигатор BI» и др. В текущем году планируется начать процесс сертификации платформы в ФСТЭК России, что откроет новые возможности для внедрения решения в государственных структурах и организациях с повышенными требованиями к информационной безопасности.

Разработчиком одноименной платформы является российская компания «Платформа данных Селена», созданная в 2024 г. Мастер-дистрибьютором продукта «Селена» является компания DIS Group. Продукты DIS Group образуют экосистему «Платформа AiDP», включающую, помимо «Селены», решения для управления бизнес-глоссарием и каталогом данных («Юниверс DG»), работы с мастер-данными («Юниверс MDM»), ETL/ELT-процессами («ФормИТ»), контроля качества данных («ФормИТ DQ») и другие компоненты.

Дмитрий Замула, технический директор «Селены», сказал: «Современный рынок больших данных требует решений, способных обеспечивать аналитику в реальном времени на постоянно растущих объемах информации. Селена создавалась именно как ответ на этот вызов. Мы не просто увеличили скорость обработки данных, но и обеспечили необходимую гибкость развертывания, что особенно важно для крупных предприятий с распределенной инфраструктурой».

Олег Гиацинтов, технический директор DIS Group, сказал: «Data Lakehouse — логичное и мощное развитие Data Lake и традиционных хранилищ: с одной стороны, сохраняется способность обрабатывать большие объемы разнородных данных, с другой — добавляется высокая скорость, благодаря улучшенной работе с метаданными и индексацией. Это кардинально повышает эффективность работы аналитиков и дата-сайентистов. Интеграция искусственного интеллекта в Data Lakehouse обеспечивает удобный доступ к данным и возможность взаимодействия с ними на естественном языке. Все это сделает Data Lakehouse стандартом для аналитики в ближайшем будущем. На российском рынке практически нет решений по контролю качества данных, способных полноценно работать с Lakehouse. DIS Group и «Селена» — среди первых, кто решает эту проблему».