Статья

Айсберг больших данных: реализуя скрытый потенциал

Бизнес в стиле digital
мобильная версия

Мы живем в эпоху большого информационного взрыва: за последние два года было создано больше данных, чем за всю историю человечества. При сохранении текущих темпов роста, к 2020 году на каждого жителя планеты будет приходиться по 5 200 гигабайтов данных. Колоссальные объемы разнородных, неструктурированных данных и их прогрессирующий рост словно подводная часть айсберга, которая наряду с угрозами таит и массу новых возможностей. Бизнес, умеющий правильно собирать, хранить и обрабатывать большие данные, получает заветный пропуск в цифровую экономику.

Необходимость меняться заложена самой природой: по законам эволюции, выживает вовсе не сильнейший, а тот, кто лучше других приспосабливается к изменяющимся условиям. Неудивительно, что с приходом цифровой эпохи многие вчерашние гиганты индустрии стали ископаемыми: в списке крупнейших компаний мира Fortune 500 в 2014 году не оказалось 88% корпораций, которые значились в нем в 1955 году. Сегодня становится очевидным, что умение работать с большими данными — еще один эволюционный признак, необходимый бизнесу для выживания и дальнейшего развития.

50 ПЕТАБАЙТ
данных хранится и анализируется eBay в системе, реализованной на базе решений SAP HANA и Predictive Analytics. Это данные о миллиардах операций, характеристиках товаров, история поведения покупателей и продавцов. Результаты обработки таких данных позволяют подбирать оптимальные сочетания покупатель-продавец и отражать их первыми в результатах поиска и рекомендациях. Таким образом значительно увеличивается объем сделок, заключаемых на платформе и экономится время пользователей на поиск подходящих товаров, что делает их более лояльными к сервису eBay. Лояльные пользователи, совершающие больше сделок по покупке, увеличивают прибыль компании eBay и ее капитализацию.

Работа с большими данными сопряжена с рядом вызовов, обусловленных как внешними, так и внутренними барьерами. Среди прочих проблем эксперты отмечают нехватку квалифицированных кадров: за специалистами по работе с большими данными ведется настоящая охота. Вкупе с низкой культурой работы с данными и устаревшими бизнес-процессами, у многих отечественных компаний наблюдается невысокий уровень доверия к получаемым результатам. Кроме того, зачастую остро стоит вопрос обеспечения безопасности данных, получаемых из внешних источников, а также проблема выбора — какие именно данные нужно отслеживать, хранить и обрабатывать.

Всего 5% собираемых миллиардами устройств данных используется бизнесом на практике, для анализа остального объема нужны новые подходы и инструменты

Современный человек ежеминутно оставляет цифровой след: покупки в магазине, общение в социальных сетях, поездка на общественном транспорте, переписка по электронной почте — даже такие повседневные действия создают массу новой информации. Не говоря уже о миллиардах подключенных устройств, измерительных приборов и датчиков, которые с немыслимой скоростью генерируют данные, из которых лишь 5% используются бизнесом на практике. Чаще всего речь идет об операционных данных, которые при использовании ERP-систем помогают обеспечивать бесперебойную работу предприятия. К примеру, на одной нефтяной платформе может использоваться более 30 тысяч датчиков, при этом в работу берется лишь 1% получаемой с них информации.

Что же происходит с большими данными, в которых могут скрываться крупицы ценнейших знаний, способных оказать влияние на целые отрасли? Как показывает практика, они просто хранятся «на всякий случай» либо отбрасываются, так как для представления их в понятном человеку виде нужны абсолютно другие подходы и инструменты.

С чего начать?

Когда бизнес собирается «нырнуть» глубже и рассмотреть поближе подводную частью айсберга, критически важным является вопрос наличия самих данных — далеко не все компании способны имеют необходимый объем и качество. Начинать следует с «цифровой копии» предприятия, создания инфраструктуры сбора данных о работе всей компании в полном объеме. Распространена ситуация, когда у предприятия имеются данные только по отказам оборудования, но нет данных со всех датчиков, непрерывно передаваемых и хранимых в системе. А ведь при наличии таких данных с помощью математических методов можно было бы выявить закономерности, которые приводят к поломке оборудования, и действовать проактивно. Во-первых, можно предсказать поломку в будущем и сделать необходимый ремонт заранее, тем самым избежав простоя оборудования, а значит и потерь от недополученной прибыли. Во-вторых, неожиданные срочные ремонты всегда обходятся дороже, поставка запасных частей «немедленно» всегда будет стоить больших денег, а при планировании ремонта заранее возможно закупить все детали со значительной скидкой. В-третьих, — и это, наверное, самое важное, — при отсутствии простоя оборудования не пострадают клиенты, для которых это оборудование работает, а значит они останутся лояльными к компании-поставщику.

Большие данные сегодня — это реальная практика и непременный атрибут цифровой экономики

Второй шаг — комплексный анализ собираемых данных, который выявит сценарии их использования, способные принести максимальную пользу. На данном этапе критически важен опыт и отраслевая экспертиза поставщика данных услуг. Будучи лидером в области интернета вещей, компания SAP недавно представила 10 основных уже проработанных сценариев для целого ряда индустрий в России: от тяжелой промышленности до сельского хозяйства и медицины. Доктор-робот, дрон-пастух, умный склад, который знает все о местоположении своих сотрудников и хранимых товарах – все это реальность уже сегодня.

48 000 комбинаций
«товар-клиент-место» и 1700 макроэкономических показателей обрабатывается за секунды алгоритмами, созданными SAP для крупнейшей транспортной компании США CSX Corporation. CSX, управляющая 21 тысячами миль железнодорожных путей, использует большие данные, предиктивную аналитику и вычисления в оперативной памяти, чтобы быстро реагировать на меняющуюся конъюнктуру рынка и оценивать ее долгосрочное влияние на бизнес. Менеджмент компании получает рекомендации в режиме реального времени и может оперативно реагировать на возможности роста перевозок в одних отраслях или снижению в других. Исходя из этого появляются принципиально новые стратегии по планированию утилизации парка и разработке ценовых предложений для клиентов.

Заключительным этапом является построение системы работы с данными, интегрированной во все бизнес-процессы компании — от моделирования и управления производственным процессом до логистики и финансовых служб. Будучи лидером в области автоматизации деятельности организаций, компания SAP обладает уникальной экспертизой в интеграции результатов аналитики интернета вещей в бизнес-процессы. Теперь их можно не просто улучшить, приведя к уровню лучших международных практик, но и сделать действительно «умными», способными подстраиваться под сценарии деятельности конкретной компании.

Большие данные и SAP

Сбор, хранение и обработка данных — три кита, на которых держится работа с большими данными. Компания SAP обладает полным портфелем решений для осуществления этих операций. Большие данные в реализации SAP — это развитый функционал анализа и разработки, в полной мере задействующий технологии вычислений в оперативной памяти и колоночные СУБД. Все процессы работы с большими данными можно реализовать с использованием облачных технологий на базе платформы SAP Cloud Platform, которая предоставляет необходимые средства для быстрой разработки веб-приложений и приложений для мобильных устройств практически на любом современном языке программирования, а также готовые для использования сервисы. SAP Cloud Platform создана на базе мультиоблачной платформы Cloud Foundry, что означает возможность свободного выбора облачного ЦОД (Amazon, Microsoft, SAP и так далее) или возможность установки на партнерских серверах, поддерживающих данную технологию.

Машина спасает человека
Международная компания Convergence CT помогает врачам повысить качество лечения пациентов с подозрением на рак груди, собирая, обрабатывая и анализируя большое количество медицинских данных на базе решений SAP. Система Convergence CT за считанные минуты анализирует миллионы записей о пациентах из разрозненных источников: данные из электронной медкарты, историю болезней, принимаемые лекарства и прошлые визиты к врачам, результаты лабораторных анализов. В результате врачи оперативно получают более точную диагностическую информацию, основанную на широком количестве источников. Данное решение позволяет ускорить диагностику, удешевить ее проведение за счет устранения ручных операций, и установить раковое заболевание на более ранней стадии, что значительно увеличивает шанс выздоровления пациента.

Решения группы SAP EIM (Enterprise Information Management) представляют собой полный инструментарий для сбора данных из разных источников, различной структуры и объема. Инструменты SAP EIM используются для пакетной загрузки данных из внешних источников или репликации данных в режиме реального времени из различных источников, для работы с неструктурированным контентом и обработки потоковых данных. Специальные модули позволяют управлять качеством данных и нормативно-справочной информацией.

Для работы с большими данными вопрос их хранения становится одним из ключевых. Данные, поступающее из разных источников, неоднородны и не структурированы. В зависимости от скорости доступа и стоимости хранения данные принято разделять на три сегмента: «горячие», «теплые» и «холодные». В продуктовой линейке SAP для каждого типа данных есть соответствующее решение: SAP HANA, SAP IQ и Hadoop. Такой подход позволяет организовать хранение любых объемов данных: в оперативной памяти, на дисках или с использованием распределенной файловой системы Hadoop.

К примеру, один из клиентов SAP из аэрокосмической отрасли хранить в одной таблице SAP HANA 300 млн записей. Организация смогла подключить эту таблицу и установить соответствие с данными в Hadoop в течение часа без перемещения всех записей в хранилище Hadoop для обработки. Для объединения двух хранилищ данных была использована их виртуализация, и теперь конечные пользователи работают с ними, словно они находятся в одном хранилище.

В портфеле SAP есть решения для анализа больших данных, в том числе для анализа текстовой информации, геолокационных данных, графов, а также их визуализации. Кроме того, инструмент Predictive Analitycs позволяет выявлять зависимости, формировать рекомендации и прогнозы.

Аналитика для спортивных побед
Немецкий футбольный союз определяет сильные и слабые стороны команд-соперниц, анализирует их стратегии и расстановки на поле, а также дает рекомендации вратарям и тренерам на основе того, как их противники принимают пенальти. Такая аналитика стала возможной благодаря решениям SAP Sports One.

Сборная Германии по парусному спорту использует данные с GPS-датчиков, установленных на яхтах, датчиков ветра на воде, течений и высоты волны для построения в реальном времени наиболее эффективного маршрута и времени прохождения контрольных точек. Также была собрана статистика по самым распространенным локациям соревнований для оптимальной подготовки к гонке и ускоренному обучению молодых спортсменов.

Большие данные давно перестали быть некой футуристической концепцией или отзвуком шумихи в прессе, сегодня это реальная практика и непременный атрибут цифровой экономики. Большие данные проникают во все аспекты работы предприятия новой формации: обслуживание оборудования по состоянию, управление цепочками поставок, моделирование технологических процессов, оптимизация качества продукции, работа с персоналом, предотвращение хищений и злоупотреблений.

Чтобы не повторить судьбу «Титаника», потерпевшего крушение в результате столкновения с айсбергом, бизнесу уже сегодня необходимо делать шаги к цифровой трансформации: переосмыслять бизнес-модели, разрабатывать новые стратегии развития и внедрять инновации. Компания SAP активно ведет консультирование по вопросам цифровой трансформации бизнеса. Отраслевая экспертиза и профессиональное видение SAP уже помогли многим компаниям, в том числе в России, начать цифровые преобразования бизнеса.