EMC Data Lake 2.0 — средство перехода к аналитике больших данных и цифровой экономике

Интеграция Инфраструктура Big Data
мобильная версия
, Текст: Татьяна Короткова

Корпорация EMC представила решение Data lake 2.0 на базе платформы EMC Isilon. Как сообщили CNews в EMC, Data Lake 2.0 объединяет все данные компании в единый репозиторий, оптимизирует работу с неструктурированными данными и служит фундаментом для решений по аналитике данных. 

Согласно исследованию корпорации, 99% мировых данных не проанализированы и являются «сырыми данными». В большинстве случаев этот огромный пласт информации становится «теневым»: данные складируются, архивируются или просто уничтожаются. Без нового подхода к сбору, хранению и обработке этих данных они не станут топливом для цифровой экономики, убеждены в EMC.

«Цифровая экономика — драйвер развития современного общества — полностью основана на данных. По разным оценкам, цифровая экономика составляет от 3% до 16% ВВП стран большой двадцатки (данные Boston Consulting). При этом ее вес в росте ВВП может доходить до 21% (по данным Mckinsey), — заявили в корпорации. — По оценке РАЭК, объем цифровой экономики в РФ составляет p1 трлн — около 1,5% от ВВП. У РФ есть огромный потенциал роста цифровой экономики, даже при достижении среднего показателя G20 в 3,4% — это более чем 2-кратный рост».

Большая часть генерируемых мировым сообществом данных является неструктурированными, указали в EMC. Их рост составит 133 экзабайта к 2017 г., то есть почти вдвое превысит объем данных в 2015 г. Как пояснили в компании, это происходит за счет стремительного расширения источников данных: всевозрастающего проникновения «Интернета вещей», мобильных устройств, социальных сетей, датчиков, систем видеонаблюдения, а также ресурсоемких научных исследований.

Рост данных, множественность подходов к их обработке требуют новой архитектуры хранения, которая позволит аккумулировать разрозненные данные в едином репозитории и предоставлять доступ к различным способам обработки данных прозрачно и без дополнительных затрат. Такая концепция получила название «Озера данных» 2.0 (Data Lake 2.0). По словам представителей корпорации, идея «Озера данных» заключается в том, что у компаний появляется единое информационное пространство (озеро), в котором хранятся все данные компании, используемые для различных бизнес-приложений. Data Lake 2.0 призвана стать универсальным инструментом для хранения и последующей аналитики собранной информации.

«“Озеро данных” является органичным средством перехода от классического ИТ к цифровому бизнесу, полностью вовлеченному в цифровую экономику будущего. “Озеро данных” позволяет компаниям и государственным органам прозрачно использовать как текущие приложения, так и новейшие платформы обработки данных», — подчеркнули в EMC.

Концепция Data lake 2.0 позволяет решить основные сложности при переходе к цифровому бизнесу: безопасность, защита и управление данными (48%), возможность сбора данных из разных источников (47%), интеграция платформы хранения и обработки данных в существующую инфраструктуру (37%), нехватка знаний и умений обслуживающего персонала (31%), сама инфраструктура и архитектура для аналитики данных (22%) (согласно исследованию Gartner).

В ноябре 2015 г. корпорация EMC представила новое поколение своей флагманской платформы EMC Isilon, являющейся фундаментом Data lake 2.0. Основными отличием новой платформы стало расширение «Озера данных» за пределы ЦОД заказчиков — теперь «Озеро данных» включает в себя и данные филиалов (удаленных офисов), и данные, находящиеся в «облаке», пояснили в компании.

Платформа EMC Isilon сочетает в себе весь функционал «Озера данных» с функционалом корпоративных СХД и включает интегрированную поддержку HDFS (интегрированный в операционную систему уровень хранения HADOOP).