Статья

Собери свою СХД: как бизнес экономит на больших данных

ПО Техника
мобильная версия
, Текст: Артур Галеев

Темпы цифровизации поставили перед предприятиями новые требования к работе с данными. И речь не только об аналитике и обработке, но и о хранении: какое железо для этого используется и какой софт. Поставщики не просто успевают меняться вместе с потребностями компании, но и задают темпы этой трансформации.

Данные стали большими и быстрыми

Бизнес начинает испытывать все большую потребность в улучшении технологий хранения, причем, как на уровне ПО, так и на уровне железа. Современные СХД должны полноценно работать с увеличивающимися объемами больших данных, а их хранение и обработка должна укладываться в разумные суммы.

«Еще несколько лет назад СХД делились на решения начального уровня, midrange и high-end СХД. Такое разделение было обусловлено различиями в уровне доступности данных, масштабируемости и функциональности, – объясняет Сергей Платонов, заместитель генерального директора «Рэйдикс» по стратегии. – Сегодня такая классификация отмирает. Мы можем увидеть одну и ту же технологию как в хранилище на 1–2 узла c десятком дисков, так и в мультипетабайтной СХД».

Рынок перешел на более простой вариант классификации: решения для быстрых данных и для больших. По прогнозам компании Western Digital, к 2022 г. баланс между большими и быстрыми данными будет составлять 70/30. Соотношение для ЦОД более красноречиво – 90/10. Эксперты считают, что большие данные пока не будут уходить с HDD, что связано с неготовностью индустрии NAND выпускать достаточные объемы памяти и существенной разницей в стоимости хранения. На архитектурном уровне развитие технологий, желание снизить общую стоимость решения и высокие запросы к масштабируемости привели к росту популярности горизонтально-масштабируемых и гиперконвергентных решений, также начинается движение к компонуемой инфраструктуре.

«Все возрастающие объемы данных, которые необходимо обрабатывать в режиме реального времени, приведут к тому, что со временем грань между памятью и хранилищем сотрется, – добавляет Сергей Платонов. – Большие объемы данных требуют серьезного подхода к управлению, причем под управлением сегодня понимается не то, где данные стоит хранить с целью снижения стоимости хранения, а как и какие данные стоит хранить с целью получения максимальной выгоды от их использования».

С точки зрения вычислительных мощностей, увеличение объемов данных и разнообразие задач, связанных с их обработкой, также приводит к изменению потребностей. Появляются большие технологические ниши для использования специализированных процессоров вместо процессоров общего назначения. Примером может быть растущая популярность процессорных архитектур с открытым кодом, таких как RISC-V.

Бизнес хочет объемные диски

Понятно, что при увеличении объемов данных, одним из наиболее инновационных направлений можно считать создание дисков большого объема. Кажущаяся простота в эксплуатации и массовость производства жестких дисков могут вводить в заблуждение, но и по сей день «винчестер» остается самой точной механической машиной, созданной человеком.

«Технологии вплотную подошли к пределу плотности магнитной записи – суперпарамагнитному пределу, поэтому последние несколько лет увеличение объемов происходило в первую очередь за счет добавления пластин (с 5 пластин в 2014 году до 8–9 пластин в 2018-м), которое стало возможно только благодаря гелию, – объясняет Григорий Никонов, системный инженер компании Western Digital. – Герметичный корпус накопителя, заполненный гелием, – инновация HGST (сейчас часть WDC), ставшая нормой для всех дисков большого объема. Но у этого способа тоже есть пределы – на сегодня это 9 пластин. Кроме того, каждая пластина увеличивает стоимость диска. Следующий этап – это разработка технологий записи с энергетической поддержкой».

Самый большой диск прямо сейчас – это Western Digital Ultrastar DC HC 620, сделанный по технологии SMR, его объем 15ТБ. Впрочем, будущее все равно за технологиями записи с микроволновой поддержкой (MAMR) и термоассистируемой записью (HAMR), которые приближают рынок к созданию дисков с объемом в 40ТБ в стандартном 3.5-дюймовом форм-факторе.

ultrastardchc620standinglwcoverhr15tb.png
Western Digital Ultrastar DC HC 620 — самый большой диск, представленный на рынке

Пока же этого не случилось, бизнес ищет всевозможные способы экономии. На критических приложениях, вроде процессинга банковских карт или телеком-биллинга, и СХД для них, это делать сложно, да и вряд ли кто отважится. С задачами попроще можно экспериментировать.

«Доступность мощного железа x86, большой выбор программных решений SDS и производительные и недорогие дисковые полки позволяют собрать собственный дисковый массив уровня Low/Mid-range за значительно более скромные суммы по сравнению с традиционными СХД от вендоров с мировым именем. Этим, отчасти, и обусловлен ренессанс технологии JBOD», – считает Григорий Никонов.

Вместительные полки помогут с большими данными

Развитие рынка SDS и увеличение объемов хранимых данных привели к появлению на рынке дисковых полок высокой и сверхвысокой плотности. В случае WDC, например, это Ultrastar Data60 и Data102 на 60 и 102 диска 3.5”, соответственно, и максимальным объемом до 1,4ПБ в 4U.

Дисковая полка – не самое сложное устройство в ЦОД, но критериев для правильного выбора все равно немало. В зависимости от ожидаемой нагрузки и используемого ПО, полки могут быть целиком на SSD, гибридными или только дисковыми. Если планируется строить высокодоступный кластер, то все диски должны иметь SAS-интерфейс, обеспечивающий подключение по двум портам. Если планируется подключение только к одному серверу или «голове» программной СХД, то можно немного сэкономить и использовать SATA-диски и один модуль ввода-вывода в полке.

Среди других параметров – глубина стойки (в стандартную стойку, глубиной в один метр, установить полку на 100 дисков не получится), количество серверных подключений, удобство эксплуатации, надежность, гарантии поставщика и, конечно, цена. По совокупности факторов, предприятиям стоит задуматься о покупке полок, разработанных производителями самих дисков.

ultrastarserv608right4.jpg
Дисковая полка Western Digital Ultrastar Data60

«Производители дисков обладают подробнейшей статистикой и практическими навыками, касающимися надежности и производительности дисков, поэтому могут спроектировать шасси, которое будет идеальным «домом» для накопителей, – говорит Григорий Никонов. – Основными факторами, уменьшающими срок службы диска, являются высокая температура и вибрация. Каждые лишние 10 градусов сверх нормы уменьшают наработку на отказ вдвое. В решениях с высокой плотностью размещения дисков особенно страдают накопители в глубине шасси, максимально удаленные от холодного коридора».

Чтобы решить эту проблему в сверхплотных 102-дисковых полках, Western Digital используется запатентованная технология ArctiCool – по специальным воздуховодам холодный воздух поступает к задним рядам дисков, не нагреваясь о передние. Отсутствие внутри полки горячих серверных компонентов, таких как процессоры или GPU, также помогает поддерживать термальную стабильность шасси.

Вторым важным фактором, особенно для дисков большого объема, является вибрация. Позиционирование магнитных головок в диске осуществляется с нанометровой точностью, поэтому лишняя вибрация и даже громкие звуки могут привести к тому, что диску нужно будет сделать несколько дополнительных оборотов, чтобы вернуть магнитную головку на нужную дорожку. Это существенно снижает производительность подсистемы хранения.

Для подавления вибрации в полках Western Digital используется технология IsoVibe. Вокруг каждого посадочного места для диска на плате сделаны специальные вырезы. Каждый диск оказывается установленным независимой подвеске, а потому вибрация не передается от диска к диску. Это, с одной стороны, исключает случаи преждевременного выхода дисков из строя дисков, а с другой – положительно сказывается на производительности накопителей.

«Кроме того, полки Ultrastar очень удобны в обслуживании – они полностью tool-less, то есть можно все компоненты заменять голыми руками без инструментов. При работе с полкой, выдвинутой из стойки, крышка остается смонтированной в стойку – это крайне удобно при обслуживании, – добавляет Григорий Никонов. – Если говорить о характеристиках, то можно достичь сверхвысокой плотности – от минимального варианта с 24 дисками по 6ТБ (144ТБ всего) до 102 дисков по 14ТБ (1,4ПБ суммарно) на 4U. Производительность SAS-подключений не является узким местом – на каждой полке 12 портов по 48 Гбит/с. Даже без использования SSD полка может показывать потоковую скорость больше 20ГБ/с на 102 дисках».

Софт должен быть готов к масштабированию

Еще одним вопросом выбора для предприятий становится выбор софта. Важно верно рассчитать итоговую стоимость владения и правильно выбрать архитектуру. По словам участников рынка, иногда получается, что гораздо дешевле раз в три года покупать новую Scale-In-cистему, чем постоянно масштабировать Scale-Out. Иногда бывает наоборот, и покупка Scale-Out окупает себя уже в первый год использования.

«Стоит обратить внимание на то, как софт работает с современным оборудованием, готов ли он к тому, что сейчас есть диски на 14ТБ, а всего один NVMe накопитель может выдать почти 2 000 000 IOps. Софт должен быть готов к тому, что к нему добавят корзину на петабайт, и продолжать работать, обеспечивая высокую производительность», – предупреждает Сергей Платонов.

В целом можно говорить о росте роли программного обеспечения как в случае Scale-Out-систем и HCI, так и при переходе на компонуемые архитектуры. Именно ПО становится определяющим фактором успешности всего проекта. В России Western Digital сотрудничает как раз с «Рэйдикс»: компания остается российской, работая при этом с несколькими крупнейшими мировыми производителями.

raidix4xmockupru.png
Программное обеспечение RAIDIX 4.X

Для построения вертикально и горизонтально масштабируемых инфраструктур готовится новое решение RAIDIX, которое будет обладать максимальным уровнем производительности при минимальной стоимости. Например, если необходимо хранить более петабайта данных или поддерживать производительность в несколько миллионов IOps, то решение RAIDIX, как говорят в самой компании, окажется в 2-10 раз дешевле, чем у любого конкурента. Впрочем, этот вариант можно использовать не только в транснациональных корпорациях, но и чуть ли не в домашних NAS. При применении в больших стойках будет использоваться технология RAID N+M, которая обеспечивает защиту от потери до 32 дисков в RAID группе, что позволяет достигать высоких уровней доступности, используя большие накопители.

RAIDIX может быть использован в связке с файловой системой Hyper FS, что позволяет создавать масштабируемые производительные СХД с доступом к данным в различных операционных системах. Hyper FS в этой связке отвечает не только за высокую доступность, данных, но и за их зеркалирование, важным отличием является отсутствие единой точки отказа. Пользователи также получают возможность редактирования и воспроизведения сведений с разных клиентских машин. В абсолютных показателях это выражается в возможности хранения до 4 млрд файлов в одном каталоге и 4096 разделов, которые можно объединить в единую файловую систему.

При этом, «Рэйдикс» предлагает решение и для работы с быстрыми данными. RAIDIX ERA обеспечивает потоковую производительность на уровне до 20 Гбит/с на узел и до 5 000 000 IOps на пару контроллеров даже в режиме отказов.

«Для сред NVMe и NVMf можно использовать специализированное ПО RAIDIX ERA, которое на данный момент является лучшим средством для обеспечения отказоустойчивости для новых компонуемых архитектур и задач Fast Data в целом. Компания, которая хочет решать новый тип задач, используя технологию RAIDIX ERA получит 2-3-кратный прирост производительности от своей инфраструктуры», – считает Сергей Платонов.

А для облачных инфраструктур компания предлагает распределенную блочную СХД. Она задумывалась как альтернатива ceph, которая полностью построена на идее использования помехоустойчивого кодирования и при этом обеспечивает высокую производительность. Система сама перестраивается под необходимый уровень доступности в зависимости от масштабирования или происходящих отказов. В итоге при избыточности в 30% удалось достичь линейно растущей производительности в несколько миллионов IOps с каждого узла при задержках, не превышающих 2 мс.

Таким образом, у современного бизнеса появляются неизмеримо широкие возможности как для использования готовых СХД, так и для создания собственных, что может оказаться даже дешевле, а также позволит лучше отвечать конкретным потребностям компании. Вендоры дисков, полок и ПО задают темпы трансформации, помогая и крупным компаниям, и предприятиям из СМБ-сегмента оставаться конкурентоспособными и выигрывать борьбу в своих сегментах.