Разделы

ПО

Arenadata Catalog расширяет возможности управления данными в экосистеме Arenadata Hadoop

Компания «ДатаКаталог» (входит в группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH). Коннектор позволяет импортировать описания объектов Impala в каталог, выполнять профилирование данных и настраивать пользовательские проверки качества данных в Impala. Это не первый модуль, обеспечивающий интеграцию с экосистемой Hadoop, ранее заказчикам был представлен коннектор для сервиса Hive.

Экосистема Hadoop — де-факто стандарт в бизнес-сценариях, связанных с хранением, обработкой и анализом больших объёмов данных произвольных типов. Устойчивый спрос на системы этого класса поддерживается трендом на цифровизацию и ростом объёмов неструктурированных данных и количество связанных с ними проектов.

Отвечая на потребность заказчиков в высокопроизводительном анализе больших данных, хранящихся в системах, развёрнутых на Arenadata Hadoop, Arenadata включила в состав очередного обновления Apache Impala — распределённый сервис исполнения SQL-запросов. Он предназначен для массивно-параллельной обработки (МРР) сверхбольших объёмов данных. Impala разработана как более быстрый и эффективный механизм выполнения SQL-запросов в сравнении с традиционными компонентами SQL-on-Hadoop (Hive, Spark SQL). Поддержка нового сервиса существенно повысила производительность продукта для ряда бизнес-сценариев, в том числе так называемых песочниц данных для внерегламентной обработки информации аналитиками

«Ряд текущих и новых заказчиков Arenadata воспользовался возможностью ускорения SQL-обработки и анализа данных за счёт использования Impala вместо Hive в озёрах данных. К сожалению, отсутствие поддержки этого сервиса в Arenadata Catalog сдерживало часть из них от переключения нагрузки на Impala в промышленном контуре. Оперативная разработка и поставка коннектора метаданных обеспечила неразрывность отслеживания метаданных в системах и устранила это препятствие», — считает Александр Тимчур, руководитель департамента поддержки продаж Arenadata.

Особенность применения коннектора Impala

Метаданные объектов интегрируемых систем являются основой каталога данных. Интеграция метаданных объектов Impala позволяет пользователям Arenadata Catalog получать актуальное и полное представление об объектах сервиса, чтобы включить их в граф обработки данных (lineage), исследовать связи с объектами других систем-источников, а также связать с задействованными бизнес-сущностями организации. Администратор Arenadata Catalog может дополнить автоматически собранные метаданные Impala расширенным описанием, сопроводив их пользовательскими атрибутами. Точно так же, как остальные объекты в Arenadata Catalog, объекты сервиса Impala могут иметь владельца и быть классифицированы по уровню бизнес-критичности.

«Технологический ландшафт хранилищ данных российских предприятий отличается высокой сложностью и фрагментарностью. В прошлом для построения КХД широко использовались корпоративные продукты зарубежных вендоров, сейчас развиваются и внедряются решения на базе открытого программного обеспечения. В долгосрочной перспективе программное обеспечение отечественного производства будет занимать преимущественные позиции. Именно по этой причине Arenadata Catalog регулярно расширяет список коннекторов к популярным источникам данных и платформам независимо от их типа, разрабатывая их самостоятельно. Мы стремимся, чтобы Arenadata Catalog стал стандартом де-факто для всех потребителей, строящих хранилища на базе Hadoop, и упростил миграцию на российские решения. Коннектор к сервису Impala из пакета ADH — это очередной шаг в этом направлении», — отмечает Иван Новосёлов, генеральный директор компании «ДатаКаталог».

Для данных Impala, интегрированных в каталог, настраиваются пользовательские проверки качества и автоматический сбор метрик профилирования данных. Например, можно создать проверку на определение повторяющихся значений в таблице базы данных или на ненулевое значение в столбце. По результатам проверок формируется итоговый отчёт о качестве данных.

Для Apache Impala возможно сформировать визуальное происхождение данных (Data Lineage) между таблицами и представлениями, в том числе поколоночный lineage.

Теперь, просматривая аналитический отчёт, можно с лёгкостью отследить путь преобразования данных между системами: какие атрибуты каких таблиц какой базы данных передали информацию, как в свою очередь они её получили, какие другие информационные системы причастны.

Чтобы запросить демонстрацию функционала каталога данных Arenadata Catalog с коннектором Impala, напишите на почту info@arenadata.io.

Возможности Arenadata Hadoop

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Решаемые задачи:

На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.