«Пакетная обработка больших данных — это слишком медленно»


CNews: В экспертной среде достаточно много соображений о больших данных. Отдельные аналитики и представители бизнеса говорят, что они практически бесполезны, другие считают, что без больших данных компании достаточно быстро перестанут быть успешными в конкурентной борьбе. Какая у вас позиция на этот счет?
Геннадий Волков:
Геннадий Волков
Fast Data — это основной тренд в современной обработке данных и те российские компании, которые хотят выиграть в конкурентной борьбе, должны следовать этим тенденциям, становиться предприятиями «реального времени», ведь их конкуренты — ведущие компании мира — движутся в эту сторону

Обработка больших данных дала возможность для решения целого класса новых задач. Это задачи e-commerce и персонализации в реальном времени, NBO (Next Best Offer — поиск оптимального предложения для клиента) и NBA (Next Best Action — ML-алгоритм, предсказывающий дату следующей покупки), задачи интернета вещей, предиктивной аналитики, борьбы с киберпреступлениями и выявления аномальных отклонений.

Для многих компаний пакетная обработка больших данных, при которой они собираются в больших масштабируемых хранилищах, а обрабатываются уже позже, стала слишком медленной. Поэтому архитектура и технологии больших данных развиваются в сторону Fast Data — потоковой обработки, при которой данные обрабатываются по мере их поступления, что обеспечивает конкурентное преимущество современным компаниям.

Fast Data — это основной тренд в современной обработке данных и те российские компании, которые хотят выиграть в конкурентной борьбе, должны следовать этим тенденциям, становиться предприятиями «реального времени», ведь их конкуренты — ведущие компании мира — движутся в эту сторону.

CNews: Давайте попробуем поговорить чуть более детально о том, в чем заключается подход Fast Data?
Геннадий Волков:

До недавнего времени хранилище данных (DWH) или, позже, Data Lake в технологиях больших данных были ориентированы на пакетную обработку. При этом данные собирались в распределенных файловых системах, таких как HDFS или базах данных, а затем обрабатывались пакетами и изучались в интерактивном режиме с использованием средств аналитики. Сейчас, как я уже отметил, зависимость исключительно от пакетной обработки данных становится конкурентным недостатком. Таким образом, DWH и системы обработки больших данных эволюционируют к решениям, ориентированным на немедленную обработку данных по мере их поступления.

Решения, обрабатывающие потоки данных, предъявляют гораздо более жесткие требования к отказоустойчивости, доступности и масштабируемости приложений, чем традиционная пакетная обработка в архитектуре больших данных. Это связано с тем, что такие решения должны работать непрерывно недели и месяцы с постоянно меняющейся нагрузкой.

Другое важное отличие Fast Data от больших данных — это требования к обеспечению интеграции с другими системами и источниками данных в онлайн-режиме и, соответственно, к малому времени отклика.

Таким образом, подход Fast Data объединяет в себе технологии потоковой обработки данных, когда мы работаем с потоком данных, как с одной бесконечной таблицей баз данных, и технологии микросервисов, которые позволяют реагировать на отдельные события и интегрироваться с внешними системами-источниками данных.

CNews: Каким компаниям и из каких отраслей Fast Data нужна в первую очередь?
Лина Чуднова:
Лина Чуднова
Не существует единой технологии, которая подходит для решения различных классов задач обработки данных.

Такие решения востребованы во всех современных отраслях. В первую очередь — в тех предприятиях, которые осуществляют цифровую трансформацию. Предлагая продукты и услуги через новые цифровые каналы, такие компании сталкиваются с необходимостью обрабатывать большее количество данных, делать это быстрее, применять к данным более сложную логику. Если обязательно выделять какие-то отрасли, то я бы назвала банки, финтех, ритейл, логистику и промышленность.

«Неофлекс» работает преимущественно с финансовым сектором, в котором к Fast Data уже сформировался предметный интерес, мы уже реализовали проекты в этой области.

Лина Чуднова:

В современных реалиях увеличились не только объемы и скорости обработки данных, но и сложность этой обработки. Многие задачи невозможно решать, используя традиционный подход с заданной и запрограммированной заранее логикой. Куда более эффективным представляется объединение Fast Data и методов машинного обучения.

«Fast Data наиболее эффективна в связке с машинным обучением»

CNews: Какие типовые классы задач подразумевают применение Fast Data?
Лина Чуднова:

Частично Геннадий их уже назвал, говоря о больших данных: это принятие решений, например, в банковских рисках, NBO и NBA в электронной коммерции, банках и ритейле. Помимо этого, я бы отметила выявление аномалий (в области интернета вещей, детектирование фрода в банках, другие задачи в сфере информационной безопасности), predictive maintenance (предиктивный ТОиР) на базе промышленного интернета вещей, аналитика в режиме реального времени, анализ логов приложений (Systems Management), обработка транзакций.

В современных реалиях увеличились не только объемы и скорости обработки данных, но и сложность этой обработки. Многие вышеперечисленные задачи невозможно решать, используя традиционный подход с заданной и запрограммированной заранее логикой. Куда более эффективным представляется объединение Fast Data и методов машинного обучения, которыми мы в «Неофлекс» активно занимаемся. Скажу больше: без машинного обучения большую часть этих задач решить практически невозможно.

CNews: Насколько такие решения сложны структурно? Насколько часто в их основе лежит ПО с открытым кодом?
Лина Чуднова:
Лина Чуднова
У нас в стадии реализации находятся масштабные проекты, не уступающие самым интересным и сложным зарубежным кейсам

ИТ-решения вообще стали структурно сложными после наступления эпохи больших данных. Не существует единой технологии, которая подходит для решения различных классов задач обработки данных. То же самое относится и к решениям класса Fast Data. Создавая их, приходится учитывать множество часто взаимоисключающих требований, искать между ними компромисс. Насколько необходимо малое время отклика? Какие объемы данных обрабатываются? С какими типами задач они связаны? Какие обрабатывать события — одним пакетом или каждое в отдельности? Задействована ли сложная обработка событий? С какими другими инструментами необходимо интегрироваться и как это сделать? На все эти вопросы приходится давать ответы. При этом мы в «Неофлекс» сталкиваемся с тем, что бизнес-заказчики ждут от решений Fast Data времени отклика менее одной секунды при обработке десятков и сотен тысяч сообщений в секунду, объемом до нескольких терабайтов в день.

CNews: Насколько часто в их основе лежит ПО с открытым кодом, какие технологии вы используете?
Геннадий Волков:
Геннадий Волков
Какие бы технологии ни были выбраны, предполагается, что они должны иметь возможность исполняться в современной облачной среде, то есть быть cloud-ready

Для построения Fast Data-решений существует большое количество платформ, технологий и инструментов. Сейчас они как раз достигли уровня зрелости и готовы к применению при решении самых сложных и ответственных задач. Какие бы технологии ни были выбраны, предполагается, что они должны иметь возможность исполняться в современной облачной среде, то есть быть cloud-ready. Для этого мы используем платформы оркестрации контейнеров OpenShift и Kubernetes. Кроме того, компания «Неофлекс» использует такие open source-решения, как Apache Kafka, CloudFlow, Apache Spark, Apache Flink, Akka и ряд других.

Здесь стоит отметить, что «Неофлекс» обладает глубокой экспертизой в перечисленных технологиях и является партнером компании Lightbend, в том числе по внедрению Lightbend Fast Data Platform на российском рынке.

Важно, что неотъемлемыми компонентами Fast Data-решений стали платформы управления жизненным циклом моделей машинного обучения. Мы интегрируем в наши решения такие платформы как MLflow и Kubeflow, которые позволяют построить автоматизированный процесс создания модели, ее обучения и ее эксплуатации. Используя построенные нами CI/CD-процессы, мы интегрируем модели машинного обучения и потоковую обработку данных в единое решение. В настоящее время такой класс CI/CD-задач получил в ИТ-мире название MLOps.

CNews: Ведется ли в «Неофлекс» собственная разработка Fast Data-решений?
Лина Чуднова:
Лина Чуднова
Бизнес-заказчики ждут от решений Fast Data времени отклика менее одной секунды при обработке десятков и сотен тысяч сообщений в секунду, объемом до нескольких терабайтов в день

Компания «Неофлекс» уже несколько лет ведет разработку подобных решений, а с начала этого года мы выделили экспертизу Fast Data в отдельное направление. Мы уверены, что это позволит сконцентрировать наш опыт, чтобы эффективнее решать задачи заказчиков.

Один из последних интересных проектов — внедрение аналитической платформы для мониторинга событий информационной безопасности в банке «Открытие». Это решение дает возможность непрерывно и в реальном времени регистрировать, анализировать и реагировать на различного рода инциденты. Всего с помощью потоковой аналитики Spark Streaming происходит захват логов и непрерывный анализ порядка 60 тыс. сообщений в секунду на предмет потенциально опасных или аномальных ситуаций.

Еще один любопытный проект был реализован в 2019 году в «Первой экспедиционной компании» (ПЭК). Мы создали там «Центр управления перевозками» (ЦУП). Это система онлайн-планирования и прогнозирования перевозки грузов, которой охвачено без малого 200 складов, загрузка которых теперь известна на месяц вперед с достаточно высокой степенью точности. Технологической основой запущенного ЦУП стали решения класса Fast Data с открытым кодом. Микросервисы написаны с использованием Akka Framework, а Spark Streaming отвечает за потоковую обработку данных. Микросервисный подход значительно упростил масштабирование и внедрение доработок. Ключевым итогом внедрения стало то, что теперь ПЭК доставляет 97% грузов в оговоренные с клиентом сроки. Из программных плюсов стоит выделить время доставки информации от учетных систем до ЦУП, которое составляет менее минуты!

CNews: Каков уровень проникновения Fast Data на Западе и в России? Насколько объемные задачи решаются с их помощью за рубежом и у нас?
Лина Чуднова:

Сейчас отечественный рынок несколько отстает от западного. За рубежом уже есть интересные примеры внедрений таких решений известными финансовыми институтами, например в Capital One — американской банковской холдинговой компании, специализирующийся на кредитных картах и автокредитах. Здесь была выстроена работающая в режиме реального времени система предложений в области автокредитования. Причем речь не только про принятие решения. В частности, благодаря описанным выше технологиям, клиентам Capital One доступен онлайн-выбор комплектации автомобиля, который сопровождается моментальным отображением новой стоимости.

Если говорить о российском опыте, то я бы отметила, что у нас в стадии реализации находятся масштабные проекты, не уступающие по всем параметрам самым интересным и сложным зарубежным кейсам. Уже к концу года мы сможем рассказать о них широкой публике.