Платформы для Big Data: сравнение вендоров

Аналитики давно обещают технологиям Big Data зеленый свет. Все больше компаний осознают необходимость работы с большими данными и оказываются перед выбором подходящего инструмента.

Этой весной индустрия больших данных получила благотворные вливания капитала и положительные оценки аналитиков. Только в марте этого года Cloudera, разработчик платформы для анализа больших данных на базе Hadoop, привлекла $160 млн инвестиций венчурного капитала. Platfora, также специализирующаяся на разработке аналитических решений для работы с большими данными, получила инвестиции в размере $38 млн.

По данным IDC, рынок решений для работы с большими данными в этом году превысит планку в $16 млрд. Эксперты Allied Market Research обещают, что рынок решений для Hadoop в долгосрочной перспективе подрастет в 25 раз: с $2 млрд в 2013 г. до $50 млрд к 2020 г. «Утопая в данных, компании пытаются извлечь нужные, – рассказывает генеральный директор Platfora Бен Вертер (Ben Werther). – Руководители компаний охотно признают, что до сих пор слишком часто принимают решения интуитивно, поскольку не могут адекватно оценить собранные данные по причине отсутствия доступа и возможности интерпретировать большие пласты новых неоднородных данных достаточно быстро».

Платформы для аналитики больших данных

С проблемой организации работы с большими данными на корпоративном уровне неразрывно связан насущный вопрос: SQL или NoSQL? При разработке нереляционных баз данных (NoSQL) ставка делается на высокую масштабируемость и гибкость решений.

Автор оригинальной версии открытой СУБД MySQL Майкл Видениус в интервью отметил, что основная причина отказа от SQL – это неправильная работа с самой базой. Многие компании не могут себе позволить нанять специалистов для постоянной работы и настройки баз данных, в то время как начать использование NoSQL можно без дополнительных разработок. Однако в дальнейшем возможны сценарии, когда данные выходят из-под контроля или перестают помещаться в оперативной памяти. Если не говорить о гибридных решениях (которые во многом еще только разрабатываются), среди преимуществ NoSQL можно выделить быстрый доступ к данным, хранящимся в оперативной памяти, гибкость использования и возможность быстрого распределения данных между узлами.

Александр Будник, старший ИТ-архитектор Epam Systems, говорит, что сложно выбрать одного вендора аналитических платформ для Big Data даже внутри узкоспециализированных областей. Наиболее универсальной платформой эксперт считает Pentaho, а для решения задач машинного самообучения, таких как, например, кластеризация, классификация, регрессия и другие, лучше подходят Mahout и Spark. «В настоящее время все поставщики традиционных BI-систем, такие как MicroStrategy или SAS, обеспечивают интерфейс с Hadoop, наиболее известным аппаратно-программным комплексом для обработки Big Data, – рассказывает эксперт. – Производители MPP-систем (массово-параллельных архитектур) в свою очередь обеспечивают гораздо более тесную интеграцию c Hadoop, когда данные, хранящиеся и в Hadoop, и в реляционной СУБД, могут быть обработаны в одном SQL-запросе».

Среди наиболее технологичных MPP-платформ специалисты выделяют Vertica и Teradata Aster. В последнее время появилось множество платформ, работающих с большими данными и поддерживающих быструю аналитику, например, MemSQL или Splice Machine. Неясно только, кто из них выживет.

Топ-16 аналитических платформ для работы с большими данными

Вендор	Аналитические СУБД	СУБД в оперативной памяти:	Решения на базе Hadoop	Технология обработки потоковых данных
1010data	1010data аналитическая столбчатая база данных	–	–	–
Actian	Actian Matrix (в прошлом ParAccel), Actian Vector (в прошлом Vectorwise)	Actian Matrix In-Memory Option (данные хранятся в памяти и на диске)	–	Amazon Kinesis
Amazon	Amazon Redshift Service (на базе ParAccel), Amazon Relational Database Service	– Решения других компаний на базе AWS включают Altibase, SAP Hana, и ScaleOut	Amazon Elastic MapReduce, сторонние предложения включают Cloudera and MapR	Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm
Cloudera	Нереляционная БД, но Cloudera Impala поддерживает SQL-запросы на Hadoop	Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop	Опенсорсные программы CDH, Cloudera Standard, Cloudera Enterprise	–
HP	HP Vertica Analytics Platform Version 7 (версия Crane)	Не является «in-memory» СУБД, но, по заявлению разработчиков, при высоком коэффициенте RAM-to-disk обеспечивает обработку запросов в близком к реальному времени	–	Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm

Источник: Information Week, 2014

Смотреть полную таблицу

Отдельного внимания заслуживает опенсорсная платформа Intel для Hadoop, не попавшая в таблицу. Intel, конкурирующая с Hortonworks, Cloudera и другими разработчиками программного обеспечения для Hadoop, продолжает работу над ПО для работы с Big Data с открытым исходным кодом. Как рассказал изданию PCWorld Джейсон Феддер (Jason Fedder), генеральный директор по маркетингу Intel в Азиатско-Тихоокеанском регионе, решения на основе Hadoop сейчас играют одну из ключевых ролей в индустрии больших данных.

По словам эксперта, привлекательность решения Intel для Hadoop обуславливает и фактор «железа»: оптимизация, выполненная с учетом архитектуры процессоров Xeon и специфики работы твердотельных накопителей с контроллерами Intel, позволяет добиться значительного прироста производительности. Процессоры Xeon ускоряют операции шифрования или дешифрования по алгоритму AES, что реализуется при помощи дополнительного набора команд AES-NI. Кроме того, платформа Intel для Hadoop также предлагает расширенные возможности и в сфере обработки потоковых данных.

Трудности выбора

Сергей Трандин, «Базальт СПО»: Выбор заказчиками ОС со сертификатом ФСТЭК — тенденция, которая будет развиваться и дальше

Маркет

По мнению Александра Будника, для систем, получающих аналитические данные в масштабе, близком к реальному времени, ключевыми являются требования не только к производительности, но и ко времени отклика (к примеру, IBM говорит об отклике меньше миллисекунды). Это весьма ограничивает выбор аналитических платформ: «Вы не сможете использовать колоссальную вычислительную мощность Hadoop, так как только накладные расходы на инициирование и завершение тривиальной MapReduce-программы составляют десятки секунд. Обеспечить приемлемое время отклика могут либо достаточно дорогие MPP-платформы (например, Netezza, Teradata, Greenplum), либо распределенные системы с развитой индексацией или высоким уровнем резидентности данных в оперативной памяти».

Большинство аналитических систем все еще использует реляционную модель данных, в результате чего выбор платформ сужается до таких решений, как GridGain или Gigaspaces XAP. Для работы с потоковыми данными в режиме онлайн были созданы относительно новые на сегодняшний день технологии Storm, Spark Streaming и Akka.

Как рассказали в видоинтервью изданию Information Week Бет Шультц (Beth Schultz) и Майкл Штайнер (Michael Steiner), редакторы вебсайта AllAnalytics, «анализ данных с помощью SQL на Hadoop не позволяет достичь того максимума, который предлагает платформа». По сведениям экспертов, компании выбирают Hadoop, чтобы собирать сложные и разнообразные данные: история посещений вебсайтов, логи, данные об использовании мобильных устройств и информация из соцсетей, и многое другое. Этими данными нелегко оперировать в СУБД.

Можно извлечь структурированные данные из Hadoop для SQL-анализа, но более перспективными представляются другие подходы, такие как машинное самообучение и прочие, позволяющие соотнести новые данные с уже накопленной, проанализированной и структурированной информацией.

Бесплатная российская замена Active Directory упрощает переход на отечественное ПО

Безопасность

В интервью с Information Week Бен Вертер, генеральный директор компании Platfora, отметил: «Практически в каждой из компаний, с которыми мы работаем, системы BI и SQL достаточно хорошо себя показали, но возникают новые потребности и новые вопросы за пределами текущих возможностей. Сейчас уже недостаточно увидеть количество продаж в разных отделениях. Клиент теперь хочет понять, как история посещений веб-сайта зависит от работы физического магазина. Новые интересы строятся вокруг связей между традиционными источниками данных и новым миром цифровых кликов, онлайн-рекламы, а также данных из соцсетей и мобильных устройств».

По словам Александра Горного, директора по информационным технологиям компании Mail.ru, практически все функции системы Mail.ru основаны на технологиях Big Data: «Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления».

Уже недостаточно просто управлять данными. Кроме того, компании не могут полагаться только на аналитику, им также нужны решения из сферы BI, системы сбора и передачи оперативной информации и т.д. Грань между этими понятиями начала размываться, считает Даг Хеншен (Doug Henschen) из Information Week, в тот момент, когда SAS, Alpine Data Labs и другие стали поддерживать кластеризованные серверные среды, требовательные к памяти и Hadoop.

Екатерина Кочеткова

Подписаться на новости

Короткая ссылка

Платформы для Big Data: сравнение вендоров

Другие материалы рубрики

CNewsMarket

VDI

ERP

СЭД

BaaS

Техника

Лучшие альтернативы Skype: 7 сервисов для видеозвонков

Обзор вертикального моющего пылесоса Dreame H15 Pro Heat: ультрасовременный домашний помощник

Как правильно расположить и эксплуатировать Wi-Fi-роутер в 2025 году

Карта рынка: отечественные поставщики СХД

CNews. МиллиардерыПервыйопубликован первый рейтинг самых богатых владельцев публичных интернет-компаний в России

Исследование CNews: какие компании контролируют поставки ноутбуков в школы?

CNews. МиллиардерыПервыйопубликован первый рейтинг самых богатых владельцев публичных интернет-компаний в России

Карта рынка: отечественные поставщики СХД

Топ-10 вендоров BPMS