Айсберг больших данных: реализуя скрытый потенциал
Мы живем в эпоху большого информационного взрыва: за последние два года было создано больше данных, чем за всю историю человечества. При сохранении текущих темпов роста, к 2020 году на каждого жителя планеты будет приходиться по 5 200 гигабайтов данных. Колоссальные объемы разнородных, неструктурированных данных и их прогрессирующий рост словно подводная часть айсберга, которая наряду с угрозами таит и массу новых возможностей. Бизнес, умеющий правильно собирать, хранить и обрабатывать большие данные, получает заветный пропуск в цифровую экономику.
Необходимость меняться заложена самой природой: по законам эволюции, выживает вовсе не сильнейший, а тот, кто лучше других приспосабливается к изменяющимся условиям. Неудивительно, что с приходом цифровой эпохи многие вчерашние гиганты индустрии стали ископаемыми: в списке крупнейших компаний мира Fortune 500 в 2014 году не оказалось 88% корпораций, которые значились в нем в 1955 году. Сегодня становится очевидным, что умение работать с большими данными — еще один эволюционный признак, необходимый бизнесу для выживания и дальнейшего развития.
Работа с большими данными сопряжена с рядом вызовов, обусловленных как внешними, так и внутренними барьерами. Среди прочих проблем эксперты отмечают нехватку квалифицированных кадров: за специалистами по работе с большими данными ведется настоящая охота. Вкупе с низкой культурой работы с данными и устаревшими бизнес-процессами, у многих отечественных компаний наблюдается невысокий уровень доверия к получаемым результатам. Кроме того, зачастую остро стоит вопрос обеспечения безопасности данных, получаемых из внешних источников, а также проблема выбора — какие именно данные нужно отслеживать, хранить и обрабатывать.
Современный человек ежеминутно оставляет цифровой след: покупки в магазине, общение в социальных сетях, поездка на общественном транспорте, переписка по электронной почте — даже такие повседневные действия создают массу новой информации. Не говоря уже о миллиардах подключенных устройств, измерительных приборов и датчиков, которые с немыслимой скоростью генерируют данные, из которых лишь 5% используются бизнесом на практике. Чаще всего речь идет об операционных данных, которые при использовании ERP-систем помогают обеспечивать бесперебойную работу предприятия. К примеру, на одной нефтяной платформе может использоваться более 30 тысяч датчиков, при этом в работу берется лишь 1% получаемой с них информации.
Что же происходит с большими данными, в которых могут скрываться крупицы ценнейших знаний, способных оказать влияние на целые отрасли? Как показывает практика, они просто хранятся «на всякий случай» либо отбрасываются, так как для представления их в понятном человеку виде нужны абсолютно другие подходы и инструменты.
С чего начать?
Когда бизнес собирается «нырнуть» глубже и рассмотреть поближе подводную частью айсберга, критически важным является вопрос наличия самих данных — далеко не все компании способны имеют необходимый объем и качество. Начинать следует с «цифровой копии» предприятия, создания инфраструктуры сбора данных о работе всей компании в полном объеме. Распространена ситуация, когда у предприятия имеются данные только по отказам оборудования, но нет данных со всех датчиков, непрерывно передаваемых и хранимых в системе. А ведь при наличии таких данных с помощью математических методов можно было бы выявить закономерности, которые приводят к поломке оборудования, и действовать проактивно. Во-первых, можно предсказать поломку в будущем и сделать необходимый ремонт заранее, тем самым избежав простоя оборудования, а значит и потерь от недополученной прибыли. Во-вторых, неожиданные срочные ремонты всегда обходятся дороже, поставка запасных частей «немедленно» всегда будет стоить больших денег, а при планировании ремонта заранее возможно закупить все детали со значительной скидкой. В-третьих, — и это, наверное, самое важное, — при отсутствии простоя оборудования не пострадают клиенты, для которых это оборудование работает, а значит они останутся лояльными к компании-поставщику.
Второй шаг — комплексный анализ собираемых данных, который выявит сценарии их использования, способные принести максимальную пользу. На данном этапе критически важен опыт и отраслевая экспертиза поставщика данных услуг. Будучи лидером в области интернета вещей, компания SAP недавно представила 10 основных уже проработанных сценариев для целого ряда индустрий в России: от тяжелой промышленности до сельского хозяйства и медицины. Доктор-робот, дрон-пастух, умный склад, который знает все о местоположении своих сотрудников и хранимых товарах – все это реальность уже сегодня.
Заключительным этапом является построение системы работы с данными, интегрированной во все бизнес-процессы компании — от моделирования и управления производственным процессом до логистики и финансовых служб. Будучи лидером в области автоматизации деятельности организаций, компания SAP обладает уникальной экспертизой в интеграции результатов аналитики интернета вещей в бизнес-процессы. Теперь их можно не просто улучшить, приведя к уровню лучших международных практик, но и сделать действительно «умными», способными подстраиваться под сценарии деятельности конкретной компании.
Большие данные и SAP

Сбор, хранение и обработка данных — три кита, на которых держится работа с большими данными. Компания SAP обладает полным портфелем решений для осуществления этих операций. Большие данные в реализации SAP — это развитый функционал анализа и разработки, в полной мере задействующий технологии вычислений в оперативной памяти и колоночные СУБД. Все процессы работы с большими данными можно реализовать с использованием облачных технологий на базе платформы SAP Cloud Platform, которая предоставляет необходимые средства для быстрой разработки веб-приложений и приложений для мобильных устройств практически на любом современном языке программирования, а также готовые для использования сервисы. SAP Cloud Platform создана на базе мультиоблачной платформы Cloud Foundry, что означает возможность свободного выбора облачного ЦОД (Amazon, Microsoft, SAP и так далее) или возможность установки на партнерских серверах, поддерживающих данную технологию.
Решения группы SAP EIM (Enterprise Information Management) представляют собой полный инструментарий для сбора данных из разных источников, различной структуры и объема. Инструменты SAP EIM используются для пакетной загрузки данных из внешних источников или репликации данных в режиме реального времени из различных источников, для работы с неструктурированным контентом и обработки потоковых данных. Специальные модули позволяют управлять качеством данных и нормативно-справочной информацией.
Для работы с большими данными вопрос их хранения становится одним из ключевых. Данные, поступающее из разных источников, неоднородны и не структурированы. В зависимости от скорости доступа и стоимости хранения данные принято разделять на три сегмента: «горячие», «теплые» и «холодные». В продуктовой линейке SAP для каждого типа данных есть соответствующее решение: SAP HANA, SAP IQ и Hadoop. Такой подход позволяет организовать хранение любых объемов данных: в оперативной памяти, на дисках или с использованием распределенной файловой системы Hadoop.
К примеру, один из клиентов SAP из аэрокосмической отрасли хранить в одной таблице SAP HANA 300 млн записей. Организация смогла подключить эту таблицу и установить соответствие с данными в Hadoop в течение часа без перемещения всех записей в хранилище Hadoop для обработки. Для объединения двух хранилищ данных была использована их виртуализация, и теперь конечные пользователи работают с ними, словно они находятся в одном хранилище.

В портфеле SAP есть решения для анализа больших данных, в том числе для анализа текстовой информации, геолокационных данных, графов, а также их визуализации. Кроме того, инструмент Predictive Analitycs позволяет выявлять зависимости, формировать рекомендации и прогнозы.
Большие данные давно перестали быть некой футуристической концепцией или отзвуком шумихи в прессе, сегодня это реальная практика и непременный атрибут цифровой экономики. Большие данные проникают во все аспекты работы предприятия новой формации: обслуживание оборудования по состоянию, управление цепочками поставок, моделирование технологических процессов, оптимизация качества продукции, работа с персоналом, предотвращение хищений и злоупотреблений.
Чтобы не повторить судьбу «Титаника», потерпевшего крушение в результате столкновения с айсбергом, бизнесу уже сегодня необходимо делать шаги к цифровой трансформации: переосмыслять бизнес-модели, разрабатывать новые стратегии развития и внедрять инновации. Компания SAP активно ведет консультирование по вопросам цифровой трансформации бизнеса. Отраслевая экспертиза и профессиональное видение SAP уже помогли многим компаниям, в том числе в России, начать цифровые преобразования бизнеса.