Бизнес хочет быстрые данные вместо больших и уходит в онлайн-обработку
Пакетная обработка данных стала слишком медленной и не удовлетворяет потребностям бизнеса. На российский рынок пришли решения класса Fast Data, основанные на потоковой обработке и использующие методы машинного обучения. О том, как большие данные становятся быстрыми и какую практическую пользу смогут извлечь из этого отечественные компании, в совместном интервью CNews рассказали Геннадий Волков, главный архитектор, и Лина Чуднова, руководитель направления Fast Data компании «Неофлекс».


22.06.2020
«Пакетная обработка больших данных — это слишком медленно»
CNews: В экспертной среде достаточно много соображений о больших данных. Отдельные аналитики и представители бизнеса говорят, что они практически бесполезны, другие считают, что без больших данных компании достаточно быстро перестанут быть успешными в конкурентной борьбе. Какая у вас позиция на этот счет?

Обработка больших данных дала возможность для решения целого класса новых задач. Это задачи e-commerce и персонализации в реальном времени, NBO (Next Best Offer — поиск оптимального предложения для клиента) и NBA (Next Best Action — ML-алгоритм, предсказывающий дату следующей покупки), задачи интернета вещей, предиктивной аналитики, борьбы с киберпреступлениями и выявления аномальных отклонений.
Для многих компаний пакетная обработка больших данных, при которой они собираются в больших масштабируемых хранилищах, а обрабатываются уже позже, стала слишком медленной. Поэтому архитектура и технологии больших данных развиваются в сторону Fast Data — потоковой обработки, при которой данные обрабатываются по мере их поступления, что обеспечивает конкурентное преимущество современным компаниям.
Fast Data — это основной тренд в современной обработке данных и те российские компании, которые хотят выиграть в конкурентной борьбе, должны следовать этим тенденциям, становиться предприятиями «реального времени», ведь их конкуренты — ведущие компании мира — движутся в эту сторону.
До недавнего времени хранилище данных (DWH) или, позже, Data Lake в технологиях больших данных были ориентированы на пакетную обработку. При этом данные собирались в распределенных файловых системах, таких как HDFS или базах данных, а затем обрабатывались пакетами и изучались в интерактивном режиме с использованием средств аналитики. Сейчас, как я уже отметил, зависимость исключительно от пакетной обработки данных становится конкурентным недостатком. Таким образом, DWH и системы обработки больших данных эволюционируют к решениям, ориентированным на немедленную обработку данных по мере их поступления.
Решения, обрабатывающие потоки данных, предъявляют гораздо более жесткие требования к отказоустойчивости, доступности и масштабируемости приложений, чем традиционная пакетная обработка в архитектуре больших данных. Это связано с тем, что такие решения должны работать непрерывно недели и месяцы с постоянно меняющейся нагрузкой.
Другое важное отличие Fast Data от больших данных — это требования к обеспечению интеграции с другими системами и источниками данных в онлайн-режиме и, соответственно, к малому времени отклика.
Таким образом, подход Fast Data объединяет в себе технологии потоковой обработки данных, когда мы работаем с потоком данных, как с одной бесконечной таблицей баз данных, и технологии микросервисов, которые позволяют реагировать на отдельные события и интегрироваться с внешними системами-источниками данных.

Такие решения востребованы во всех современных отраслях. В первую очередь — в тех предприятиях, которые осуществляют цифровую трансформацию. Предлагая продукты и услуги через новые цифровые каналы, такие компании сталкиваются с необходимостью обрабатывать большее количество данных, делать это быстрее, применять к данным более сложную логику. Если обязательно выделять какие-то отрасли, то я бы назвала банки, финтех, ритейл, логистику и промышленность.
«Неофлекс» работает преимущественно с финансовым сектором, в котором к Fast Data уже сформировался предметный интерес, мы уже реализовали проекты в этой области.
Лина Чуднова:

«Fast Data наиболее эффективна в связке с машинным обучением»
Частично Геннадий их уже назвал, говоря о больших данных: это принятие решений, например, в банковских рисках, NBO и NBA в электронной коммерции, банках и ритейле. Помимо этого, я бы отметила выявление аномалий (в области интернета вещей, детектирование фрода в банках, другие задачи в сфере информационной безопасности), predictive maintenance (предиктивный ТОиР) на базе промышленного интернета вещей, аналитика в режиме реального времени, анализ логов приложений (Systems Management), обработка транзакций.
В современных реалиях увеличились не только объемы и скорости обработки данных, но и сложность этой обработки. Многие вышеперечисленные задачи невозможно решать, используя традиционный подход с заданной и запрограммированной заранее логикой. Куда более эффективным представляется объединение Fast Data и методов машинного обучения, которыми мы в «Неофлекс» активно занимаемся. Скажу больше: без машинного обучения большую часть этих задач решить практически невозможно.

ИТ-решения вообще стали структурно сложными после наступления эпохи больших данных. Не существует единой технологии, которая подходит для решения различных классов задач обработки данных. То же самое относится и к решениям класса Fast Data. Создавая их, приходится учитывать множество часто взаимоисключающих требований, искать между ними компромисс. Насколько необходимо малое время отклика? Какие объемы данных обрабатываются? С какими типами задач они связаны? Какие обрабатывать события — одним пакетом или каждое в отдельности? Задействована ли сложная обработка событий? С какими другими инструментами необходимо интегрироваться и как это сделать? На все эти вопросы приходится давать ответы. При этом мы в «Неофлекс» сталкиваемся с тем, что бизнес-заказчики ждут от решений Fast Data времени отклика менее одной секунды при обработке десятков и сотен тысяч сообщений в секунду, объемом до нескольких терабайтов в день.

Для построения Fast Data-решений существует большое количество платформ, технологий и инструментов. Сейчас они как раз достигли уровня зрелости и готовы к применению при решении самых сложных и ответственных задач. Какие бы технологии ни были выбраны, предполагается, что они должны иметь возможность исполняться в современной облачной среде, то есть быть cloud-ready. Для этого мы используем платформы оркестрации контейнеров OpenShift и Kubernetes. Кроме того, компания «Неофлекс» использует такие open source-решения, как Apache Kafka, CloudFlow, Apache Spark, Apache Flink, Akka и ряд других.
Здесь стоит отметить, что «Неофлекс» обладает глубокой экспертизой в перечисленных технологиях и является партнером компании Lightbend, в том числе по внедрению Lightbend Fast Data Platform на российском рынке.
Важно, что неотъемлемыми компонентами Fast Data-решений стали платформы управления жизненным циклом моделей машинного обучения. Мы интегрируем в наши решения такие платформы как MLflow и Kubeflow, которые позволяют построить автоматизированный процесс создания модели, ее обучения и ее эксплуатации. Используя построенные нами CI/CD-процессы, мы интегрируем модели машинного обучения и потоковую обработку данных в единое решение. В настоящее время такой класс CI/CD-задач получил в ИТ-мире название MLOps.

Компания «Неофлекс» уже несколько лет ведет разработку подобных решений, а с начала этого года мы выделили экспертизу Fast Data в отдельное направление. Мы уверены, что это позволит сконцентрировать наш опыт, чтобы эффективнее решать задачи заказчиков.
Один из последних интересных проектов — внедрение аналитической платформы для мониторинга событий информационной безопасности в банке «Открытие». Это решение дает возможность непрерывно и в реальном времени регистрировать, анализировать и реагировать на различного рода инциденты. Всего с помощью потоковой аналитики Spark Streaming происходит захват логов и непрерывный анализ порядка 60 тыс. сообщений в секунду на предмет потенциально опасных или аномальных ситуаций.
Еще один любопытный проект был реализован в 2019 году в «Первой экспедиционной компании» (ПЭК). Мы создали там «Центр управления перевозками» (ЦУП). Это система онлайн-планирования и прогнозирования перевозки грузов, которой охвачено без малого 200 складов, загрузка которых теперь известна на месяц вперед с достаточно высокой степенью точности. Технологической основой запущенного ЦУП стали решения класса Fast Data с открытым кодом. Микросервисы написаны с использованием Akka Framework, а Spark Streaming отвечает за потоковую обработку данных. Микросервисный подход значительно упростил масштабирование и внедрение доработок. Ключевым итогом внедрения стало то, что теперь ПЭК доставляет 97% грузов в оговоренные с клиентом сроки. Из программных плюсов стоит выделить время доставки информации от учетных систем до ЦУП, которое составляет менее минуты!
Сейчас отечественный рынок несколько отстает от западного. За рубежом уже есть интересные примеры внедрений таких решений известными финансовыми институтами, например в Capital One — американской банковской холдинговой компании, специализирующийся на кредитных картах и автокредитах. Здесь была выстроена работающая в режиме реального времени система предложений в области автокредитования. Причем речь не только про принятие решения. В частности, благодаря описанным выше технологиям, клиентам Capital One доступен онлайн-выбор комплектации автомобиля, который сопровождается моментальным отображением новой стоимости.
Если говорить о российском опыте, то я бы отметила, что у нас в стадии реализации находятся масштабные проекты, не уступающие по всем параметрам самым интересным и сложным зарубежным кейсам. Уже к концу года мы сможем рассказать о них широкой публике.