Обзор подготовлен
CNewsAnalytics

Системы хранения данных: концепция меняется

Система хранения данных — важная составляющая информационной системы предприятия.  Динамика сектора систем хранения данных обусловлена бурным развитием рынка информационных систем,  который предъявляет новые требования к организации хранения корпоративных данных. Глобальные изменения претерпевают сами концепции хранения, которые, в конечном итоге, и определяют выбор  программно-аппаратного комплекса.

Накопители данных

RAID-массивы (Redundant Array of Independent Disks) представляют собой объединенный массив дисковых накопителей, управляемый интеллектуальной подсистемой. Достоинством дисковых массивов является консолидация хранимой информации, то есть, такое распределение архивов данных, в котором имеющиеся емкости используются наиболее эффективно.

Все представленные на рынке массивы можно разделить на две категории: логические и физические. В случае логических массивов хранимая информация распределяется по имеющимся мощностям хранения с помощью программного обеспечения, для физических массивов предусмотрено наличие интеллектуального дискового контроллера. Для систем хранения с повышенными требованиями к скорости обработки данных  и отказоустойчивости, как правило, используется интерфейс SCSI, для упрощенных конструкций массивов используется IDE-интерфейс.  Особенностью организации RAID-массивов является распределение частей одного и того же файла на несколько дисков массива — Strimming, что позволяет повысить надежность хранения, а также существенно увеличить скорость работы с данными. В некоторых конфигурациях RAID-массивов предусмотрена возможность "горячей" замены поврежденных дисков, т.е., не прерывая работы всего дискового массива, эта же технология позволяет избежать потери данных при повреждениях дисков. В массивах RAID предусмотрена также коррекция ошибок с помощью кодов ECC (Error Correction Code).  Максимальная гибкость работы с потоками информации достигается за счет использование специальных дисковых RAID-контроллеров, использование которых позволяет значительно повысить производительность системы.

Программное обеспечение, используемое для управления массивами, интегрируется в общую информационную систему предприятия. Задачи, решение которых обеспечивает программное обеспечение RAID-массивов, это, прежде всего, устойчивость работы системы хранения, к примеру, выбор альтернативного пути передачи данных и принятие решений в случае отказа сервера или мэйнфрейм-системы.

Ленточные накопители привлекательны, прежде всего, невысокой ценой и при этом обладают значительной емкостью для хранения данных (2-8 ГБ и более для 4 мм и 8 мм лент DAT). Кроме того, автономные ленточные накопители могут объединяться в своеобразные "массивы", называемые ленточными библиотеками, суммарная емкость которых оптимизирована для хранения значительных объемов корпоративной информации. Роботизированные ленточные библиотеки обладают практически теми же возможностями, что и дисковые массивы: консолидация хранимых данных, распределение прав доступа между серверами. Ленточные библиотеки отличаются высокой надежностью, высоким быстродействием и возможностью расширения.

Система хранения данных может использовать библиотеки в качестве ресурса общего доступа, для этого в библиотеке для каждого сервера выделяется  отдельный накопитель. Следует заметить, что такой подход оказывается эффективным только при малом объеме хранимых данных. При наращивании числа серверов необходимо использовать принцип избыточности данных, широко применяемый в дисковых массивах. Использование данного принципа для консолидации  данных системы хранения в ленточных библиотеках достигается при динамическом распределении накопителей между серверами системы. Единственным требованием является соответствие программного и аппаратного обеспечения библиотек стандартам оборудования и программного обеспечения, используемого в системе хранения данных. Для динамического разделения накопителей существует ряд фирменных решений различных производителей аппаратного обеспечения.

Одной из наиболее перспективных технологий хранения данных является запись на оптические носители — DVD и CD диски. Предельная емкость одного диска достигает сегодня 653 МБ, при этом технология продолжает развиваться. Можно прогнозировать, что в ближайшем будущем емкость дисков достигнет нескольких гигабайтов.

Роботизированная библиотека представляет собой массив DVD или CD-R дисков,  размещенных в отдельном корпусе, суммарная емкость библиотеки измеряется десятками терабайт. Помимо дисковых массивов, в корпусе библиотеки расположены приводы, обеспечивающие запись и считывание информации. Число приводов может быть различным в зависимости от конкретной модели. Библиотеки имеют возможность подключения  дополнительных дисков, хранящихся вне корпуса. Подключение дополнительных дисков осуществляется посредством  mail-слота или специальных магазинов на несколько десятков дисков.

Роботизированная библиотека управляется специальным программным обеспечением, которое может быть представлено как базовым ПО для небольших массивов данных, так и программным обеспечением для иерархического управления хранилищами (Hierarchical Storage Management, HSM). Основными функциями программного обеспечения роботизированных библиотек являются: управление аппаратными средствами, в частности,  для выполнения операций чтения и записи, организация кэширования данных, а также организация и управление виртуальной файловой системой библиотеки. Управляющее ПО позволяет представить библиотеку в составе системы в виде одного логического диска огромной емкости.

В рамках концепции иерархического управления хранилищами осуществляется перенос информации с RAID-массивов в DVD-библиотеки, программному обеспечению задаются определенные рамки, устанавливаемые администратором системы, где корпоративным данным присваивается определенный приоритет, определяется актуальность и частота используемой информации.

Сегодня в сетях хранения данных доминирует технология Fibre Channel. Наряду со скоростными параметрами важнейшим преимуществом Fibre Channel является возможность работы на больших расстояниях и гибкость топологии, которая базируется на тех же принципах, что и локальные сети, что значительно упрощает построение мультиузловых конфигураций систем, в том числе без единой точки отказов. Технология обеспечивает скорость передачи данных 1-2 Гбит/с., для передачи данных используются как оптоволоконные, так и медные среды. При организации доступа к территориально удаленным узлам на расстоянии до 10 км используется стандартная аппаратура и одномодовое оптоволокно для передачи сигнала. При большой удаленности узлов используются специальные усилители.

При построении сети хранения могут использоваться все допустимые топологии Fibre Channel: "точка-точка" (прямое подключение сервера к дисковому массиву); арбитражная петля (Arbitrated Loop, FC-AL); коммутируемое подключение (FC-SW). Технология Fibre Channel поддерживает блочный ввод-вывод по протоколу SCSI, при котором операции чтения-записи идентифицируют определенное устройство хранения (диск или ленту) и определенный блок на диске. При использовании соответствующих адаптеров FC способны обрабатывать другие широко распространенные протоколы передачи данных, такие как TCP/IP, FDDI и ATM. Технология Fibre Channel позволяет получить доступ к данным на уровне отдельных записей, а не целых файлов. Кроме того, FC-каналы оптимизированы для высокопроизводительной и надежной передачи больших блоков данных с минимальными затратами. Технология Fibre Channel непрерывно развивается, ее поддерживают такие игроки рынка систем хранения, как Hewlett-Packard, Sun Microsystems, Quantum, Silicon Graphics.

Виртуализация систем хранения данных

Термин "виртуализация хранения данных" означает объединение в одном или нескольких массивах всей совокупности разнотипных накопителей и обеспечение прозрачного доступа к ним. Благодаря этому серверы освобождаются от непосредственной привязанности к определенным физическим или логическим устройствам; вместо этого они обращаются к некоему пулу, обладающему требуемым качеством обслуживания (определение Л. Черняка, "Открытые системы").

Виртуализация в контексте систем хранения может быть реализована на двух уровнях: виртуализация внешней памяти на уровне интеграции разнородных накопителей в единый "виртуальный" пул и на уровне сетей хранения SAN.

Виртуализация внешней памяти подразумевает объединение разных видов накопителей в единую логическую структуру, обращаясь к которой, серверы системы хранения получают возможность работы с единым массивом хранимых данных. При этом важным является обеспечение прозрачности обращений сервера к логическому массиву, что может быть достигнуто только за счет использования открытых стандартов.

Основным преимуществом при использовании консолидации внешней памяти является высвобождение программных и аппаратных ресурсов, экономия затрат на владение системой за счет сокращения времени работы с массивами данных. Кроме того, консолидированные массивы данных значительно проще администрировать, в том числе и при их наращивании.

Консолидация внешней памяти может протекать по двум сценариям: гомогенная консолидация, которая подразумевает концентрацию массивов  данных на одном сервере хранения, гетерогенная консолидация обозначает объединение разных приложений. Среди преимуществ первого пути можно назвать ускорение работы с массивами, объединенными в одну логическую структуру, вторая совокупность решений направлена на более полное задействование системных ресурсов.

Интерес представляет также тенденция виртуализации сетей хранения данных, которая подразумевает интеграцию некой управляющей надстройки, которая отвечает за организацию сети хранения и реализует абстрагирование данных от физического места их нахождения. Виртуализация сетей хранения SAN может быть осуществлена посредством создания симметричных и асимметричных пулов. В первом случае управляющая надстройка — устройство SAN Storage Manager — пропускает через себя весь трафик между серверами и хранилищами данных, это позволяет представить разнородные хранилища данных в виде единого дискового пространства. Такое решение обеспечивает простоту установки и администрирования, а также повышает прозрачность взаимодействия серверов с массивами данных.  Функциональность  таких устройств не зависит от количества и архитектур серверов и систем хранения. Создание асимметричных пулов оставляет возможность прямой связи между сервером и хранилищами данных. Управление сосредоточено в сервере метаданных, где хранится информация о размещении данных. Метаданные передаются в серверы с помощью специального программного обеспечения,  называемого инсталлируемой или виртуальной файловой системой. Оба этих решения предполагают кластеризацию с целью повышения надежности системы и исключения SAN Storage Manager из списка слабых мест системы. Следует заметить, что решения виртуализации систем хранения не имеют "обратного" действия, и исключить их из системы чрезвычайно сложно.

Юлия Граванова / CNews


Вернуться на главную страницу обзора

Версия для печати

Техноблог | Форумы | ТВ | Архив
Toolbar | КПК-версия | Подписка на новости  | RSS