Разделы

ПО Цифровизация

Arenadata усилила Arenadata Hadoop инструментом для асинхронной репликации и оптимизации хранения данных

Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) новый сервис Smart Storage Manager (SSM) — инструмент для оптимизации хранения и управления данными. Сервис расширяет возможности распределённой файловой системы HDFS и позволяет выбрать наиболее эффективный способ работы с данными, снижая накладные расходы на их хранение и повышая производительность запросов.

В типичной инсталляции Hadoop 80% вычислительных нагрузок приходится на обработку 20% данных. Для оптимизации управления данными в зависимости от их востребованности Smart Storage Manager анализирует частоту обращений к файлам, а далее автоматически, на основе установленных администраторами правил, перемещает горячие данные в кеш, тёплые — на носители, оптимальные по производительности (SSD), холодные — в архив на носители, оптимизированные по объёму хранения (HDD). Это позволяет снизить стоимость хранения редко используемых данных, повысить производительность чтения горячих данных, а также оптимизировать использование оборудования.

Smart Storage Manager обеспечивает возможность настроить асинхронную репликацию данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем. Сервис отслеживает операции изменения данных, такие как создание, удаление, добавление и переименование, чтобы обеспечить синхронизацию в реальном времени и избежать вычислительных затрат MapReduce. Предусмотрена простая настройка и управление репликацией для реализации сценариев аварийного восстановления (DR).

«Стандартный инструмент для репликации данных между разными Hadoop-кластерами — команда distcp (Distributed Copy) — подходит для пакетной репликации большого объёма данных и неприменима в ряде других сценариев. С появлением SSM мы расширили возможности Arenadata Hadoop новым функционалом Data Sync, позволяющим реализовать асинхронную репликацию с наименьшей задержкой и влиянием на кластер-источник», — отмечает Александр Анисимов, технический руководитель продукта Arenadata Hadoop.

Политики и правила Smart Storage Manager позволяют гибко настраивать включение Erasure Coding — технологии отказоустойчивого распределения данных. Технология поддерживает сжатие данных в HDFS без ограничения доступа к ним для внешних приложений, что способствует экономии места в подсистеме хранения.

«Ввиду роста объёмов неструктурированных данных и их неравноценности с точки зрения частоты запросов, нет смысла оптимизировать весь массив. SSM позволяет собирать и анализировать исторические показатели, на их основе выявлять и прогнозировать шаблоны доступа к данным, чтобы автоматически корректировать варианты хранения, оптимизируя расходы и повышая производительность», — комментирует Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata.

Сервис также включает решение для оптимизации потребления памяти при работе с небольшими файлами — их можно сжать в один файл-контейнер, который хранится в HDFS и данные в нём доступны для приложений верхнего уровня. Это позволяет снизить накладные расходы и повысить производительность записи и чтения небольших файлов.

Для удобства администраторов кластеров Smart Storage Manager предоставляет веб-интерфейс, с помощью которого можно создавать правила, запускать действия, проверять статус их выполнения и следить за статистикой кластера.

С детальным описанием сервиса вы можете ознакомиться по ссылке.

Возможности Arenadata Hadoop

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Решаемые задачи:

На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.