Разделы

Big Data

Платформы для Big Data: сравнение вендоров

Аналитики давно обещают технологиям Big Data зеленый свет. Все больше компаний осознают необходимость работы с большими данными и оказываются перед выбором подходящего инструмента.

Этой весной индустрия больших данных получила благотворные вливания капитала и положительные оценки аналитиков. Только в марте этого года Cloudera, разработчик платформы для анализа больших данных на базе Hadoop, привлекла $160 млн инвестиций венчурного капитала. Platfora, также специализирующаяся на разработке аналитических решений для работы с большими данными, получила инвестиции в размере $38 млн.

По данным IDC, рынок решений для работы с большими данными в этом году превысит планку в $16 млрд. Эксперты Allied Market Research обещают, что рынок решений для Hadoop в долгосрочной перспективе подрастет в 25 раз: с $2 млрд в 2013 г. до $50 млрд к 2020 г. «Утопая в данных, компании пытаются извлечь нужные, – рассказывает генеральный директор Platfora Бен Вертер (Ben Werther). – Руководители компаний охотно признают, что до сих пор слишком часто принимают решения интуитивно, поскольку не могут адекватно оценить собранные данные по причине отсутствия доступа и возможности интерпретировать большие пласты новых неоднородных данных достаточно быстро».

Платформы для аналитики больших данных

С проблемой организации работы с большими данными на корпоративном уровне неразрывно связан насущный вопрос: SQL или NoSQL? При разработке нереляционных баз данных (NoSQL) ставка делается на высокую масштабируемость и гибкость решений.

Автор оригинальной версии открытой СУБД MySQL Майкл Видениус в интервью отметил, что основная причина отказа от SQL – это неправильная работа с самой базой. Многие компании не могут себе позволить нанять специалистов для постоянной работы и настройки баз данных, в то время как начать использование NoSQL можно без дополнительных разработок. Однако в дальнейшем возможны сценарии, когда данные выходят из-под контроля или перестают помещаться в оперативной памяти. Если не говорить о гибридных решениях (которые во многом еще только разрабатываются), среди преимуществ NoSQL можно выделить быстрый доступ к данным, хранящимся в оперативной памяти, гибкость использования и возможность быстрого распределения данных между узлами.

Александр Будник, старший ИТ-архитектор Epam Systems, говорит, что сложно выбрать одного вендора аналитических платформ для Big Data даже внутри узкоспециализированных областей. Наиболее универсальной платформой эксперт считает Pentaho, а для решения задач машинного самообучения, таких как, например, кластеризация, классификация, регрессия и другие, лучше подходят Mahout и Spark. «В настоящее время все поставщики традиционных BI-систем, такие как MicroStrategy или SAS, обеспечивают интерфейс с Hadoop, наиболее известным аппаратно-программным комплексом для обработки Big Data, – рассказывает эксперт. – Производители MPP-систем (массово-параллельных архитектур) в свою очередь обеспечивают гораздо более тесную интеграцию c Hadoop, когда данные, хранящиеся и в Hadoop, и в реляционной СУБД, могут быть обработаны в одном SQL-запросе».

Среди наиболее технологичных MPP-платформ специалисты выделяют Vertica и Teradata Aster. В последнее время появилось множество платформ, работающих с большими данными и поддерживающих быструю аналитику, например, MemSQL или Splice Machine. Неясно только, кто из них выживет.

Топ-16 аналитических платформ для работы с большими данными

Вендор Аналитические СУБД СУБД в оперативной памяти: Решения на базе Hadoop Технология обработки потоковых данных
1010data 1010data аналитическая столбчатая база данных
Actian Actian Matrix (в прошлом ParAccel), Actian Vector (в прошлом Vectorwise) Actian Matrix In-Memory Option (данные хранятся в памяти и на диске) Amazon Kinesis
Amazon Amazon Redshift Service (на базе ParAccel), Amazon Relational Database Service
Решения других компаний на базе AWS включают Altibase, SAP Hana, и ScaleOut
Amazon Elastic MapReduce, сторонние предложения включают Cloudera and MapR Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm
Cloudera Нереляционная БД, но Cloudera Impala поддерживает SQL-запросы на Hadoop Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop Опенсорсные программы CDH, Cloudera Standard, Cloudera Enterprise
HP HP Vertica Analytics Platform Version 7 (версия Crane) Не является «in-memory» СУБД, но, по заявлению разработчиков, при высоком коэффициенте RAM-to-disk обеспечивает обработку запросов в близком к реальному времени Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm

Источник: Information Week, 2014

Смотреть полную таблицу

Отдельного внимания заслуживает опенсорсная платформа Intel для Hadoop, не попавшая в таблицу. Intel, конкурирующая с Hortonworks, Cloudera и другими разработчиками программного обеспечения для Hadoop, продолжает работу над ПО для работы с Big Data с открытым исходным кодом. Как рассказал изданию PCWorld Джейсон Феддер (Jason Fedder), генеральный директор по маркетингу Intel в Азиатско-Тихоокеанском регионе, решения на основе Hadoop сейчас играют одну из ключевых ролей в индустрии больших данных.

По словам эксперта, привлекательность решения Intel для Hadoop обуславливает и фактор «железа»: оптимизация, выполненная с учетом архитектуры процессоров Xeon и специфики работы твердотельных накопителей с контроллерами Intel, позволяет добиться значительного прироста производительности. Процессоры Xeon ускоряют операции шифрования или дешифрования по алгоритму AES, что реализуется при помощи дополнительного набора команд AES-NI. Кроме того, платформа Intel для Hadoop также предлагает расширенные возможности и в сфере обработки потоковых данных.

Амир Даутов, InfoWatch: Корпоративный периметр из-за удаленки превратился в «решето» с уязвимостями
Защита данных

Трудности выбора

По мнению Александра Будника, для систем, получающих аналитические данные в масштабе, близком к реальному времени, ключевыми являются требования не только к производительности, но и ко времени отклика (к примеру, IBM говорит об отклике меньше миллисекунды). Это весьма ограничивает выбор аналитических платформ: «Вы не сможете использовать колоссальную вычислительную мощность Hadoop, так как только накладные расходы на инициирование и завершение тривиальной MapReduce-программы составляют десятки секунд. Обеспечить приемлемое время отклика могут либо достаточно дорогие MPP-платформы (например, Netezza, Teradata, Greenplum), либо распределенные системы с развитой индексацией или высоким уровнем резидентности данных в оперативной памяти».

Большинство аналитических систем все еще использует реляционную модель данных, в результате чего выбор платформ сужается до таких решений, как GridGain или Gigaspaces XAP. Для работы с потоковыми данными в режиме онлайн были созданы относительно новые на сегодняшний день технологии Storm, Spark Streaming и Akka.

Как рассказали в видоинтервью изданию Information Week Бет Шультц (Beth Schultz) и Майкл Штайнер (Michael Steiner), редакторы вебсайта AllAnalytics, «анализ данных с помощью SQL на Hadoop не позволяет достичь того максимума, который предлагает платформа». По сведениям экспертов, компании выбирают Hadoop, чтобы собирать сложные и разнообразные данные: история посещений вебсайтов, логи, данные об использовании мобильных устройств и информация из соцсетей, и многое другое. Этими данными нелегко оперировать в СУБД.

4 проблемы ИТ в филиалах и способы их решения
Интернет

Можно извлечь структурированные данные из Hadoop для SQL-анализа, но более перспективными представляются другие подходы, такие как машинное самообучение и прочие, позволяющие соотнести новые данные с уже накопленной, проанализированной и структурированной информацией.

В интервью с Information Week Бен Вертер, генеральный директор компании Platfora, отметил: «Практически в каждой из компаний, с которыми мы работаем, системы BI и SQL достаточно хорошо себя показали, но возникают новые потребности и новые вопросы за пределами текущих возможностей. Сейчас уже недостаточно увидеть количество продаж в разных отделениях. Клиент теперь хочет понять, как история посещений веб-сайта зависит от работы физического магазина. Новые интересы строятся вокруг связей между традиционными источниками данных и новым миром цифровых кликов, онлайн-рекламы, а также данных из соцсетей и мобильных устройств».

По словам Александра Горного, директора по информационным технологиям компании Mail.ru, практически все функции системы Mail.ru основаны на технологиях Big Data: «Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления».

Уже недостаточно просто управлять данными. Кроме того, компании не могут полагаться только на аналитику, им также нужны решения из сферы BI, системы сбора и передачи оперативной информации и т.д. Грань между этими понятиями начала размываться, считает Даг Хеншен (Doug Henschen) из Information Week, в тот момент, когда SAS, Alpine Data Labs и другие стали поддерживать кластеризованные серверные среды, требовательные к памяти и Hadoop.

Екатерина Кочеткова