Спецпроекты

На страницу обзора
«Будущее аналитики — за интеллектуальными агентами»: Data Sapience о рынке платформ данных

Этап точечной замены западных СУБД в российском бизнесе сменяется запросом на создание единых технологических платформ. Как интегрированные решения оптимизируют утилизацию серверных мощностей, почему будущее аналитики за интеллектуальными агентами и как тренд на уход платформы «в тень» изменит работу пользователей, рассказывают эксперты Data Sapience Андрей Прохоров, менеджер по предпродажной поддержке, и Михаил Зайцев, владелец платформы Kolmogorov AI.

Михаил Зайцев, Андрей ПрохоровData Sapience

CNews: Расскажите о продуктах: что из себя представляют платформы Data Ocean Nova и Kolmogorov AI?

Андрей Прохоров: Lakehouse-платформа данных (гибридное озеро-хранилище) Data Ocean Nova предназначена для анализа корпоративной информации и принципиально отличается от привычных СУБД. Если в них хранение и обработка данных были связаны, то современные лидеры рынка — например, Snowflake и Databricks — перешли к архитектуре, разделяющей эти процессы. Data Ocean Nova следует этому тренду и развивает его, предлагая возможность выбора вычислительных движков в зависимости от стоящей задачи: Spark, StarRocks, Trino и Impala. Все они работают с данными, расположенными в едином объектном хранилище. В зависимости от задачи заказчика выбирается инструмент, который решит ее наиболее эффективно. Кроме этого, система спроектирована по современному принципу гибридной архитектуры Kubernetes-приложений, что позволяет на одних и тех же аппаратных ресурсах перераспределять вычислительные мощности в зависимости от нагрузки, требований бизнеса, соглашений по обеспечению уровня сервиса и так далее.

Андрей Прохоров, Data Sapience: Правильно спроектированная платформа должна быть универсальной

Михаил Зайцев: Платформа Kolmogorov AI предназначена для решения задач при работе с большими языковыми моделями (LLMOps) и моделями машинного обучения (MLOps) — операционализации процессов обучения моделей и их применения, в том числе таких современных, как агентные системы. Она предоставляет специалисту по данным (дата-сайентисту) пространство для разработки, внедрения и отслеживания моделей. Основная идея — упростить эти процессы и создать единый ландшафт для машинного обучения (ML).

CNews: Как Data Ocean Nova и Kolmogorov AI работают в синергии?

Михаил Зайцев: Для решения задач машинного обучения необходимы данные. Более того, когда мы работаем с ML, то зачастую готовим данные «жадным» образом — нам нужно быстро проверять множество гипотез, а значит, иметь доступ к большим объемам необработанной информации. Поэтому необходимы платформы, которые обеспечивают надежное хранение и предоставляют аналитические слои, поддерживающие популярные в среде специалистов по данным фреймворки.

Андрей Прохоров: Часто у крупных заказчиков платформа данных и платформа для сопровождения моделей машинного обучения (MLOps) — это физически разные среды, иногда разнесенные по разным ЦОДам. Это вынуждает копировать огромные массивы данных между системами, а каждую из них — проектировать под пиковую нагрузку. В результате системы работают в режиме «передачи мяча»: сначала готовятся данные, затем начинается их обработка. Пока одна система загружена, другая простаивает.

Их объединение позволяет гибко перераспределять ресурсы между задачами. Что, с одной стороны, повышает среднюю утилизацию системы, с другой — снижает требования к оборудованию, необходимому для достижения тех же соглашений о качестве сервиса (SLA), и общую стоимость владения за счет исключения дублирования данных между двумя или тремя решениями в ландшафте.

CNews: Насколько сложно внедрить такую систему? Есть ли какие-то барьеры?

Андрей Прохоров: Основные сложности начинаются на этапе подготовки. Чтобы получить первый результат, данные нужно извлечь из разных систем, где они лежат в разных форматах, объединить их и привести в порядок. Это не техническая проблема платформы, если мы говорим о Data Ocean, а организационный вызов для самого заказчика: как собрать информацию и выстроить логику ее обработки. К слову, для извлечения больших объемов данных, пакетной репликации и интеграции в платформе Data Ocean предусмотрен инструмент Flex Loader. Также в продуктовом портфеле Data Sapience есть решение для управления данными в реальном времени (real-time) Data Ocean SDI, которое способно не только читать изменения транзакционных журналов систем-источников и очередей, но и реализовывать онлайн-преобразования в соответствии с бизнес-логикой.

Преимущество объединенной платформы, построенной на продуктах их линеек Data Ocean и Kolmogorov AI, в том, что она основана на общих инфраструктурных и платформенных компонентах. Специалистам нужно освоить меньше инструментов, чтобы пройти путь от извлечения данных из источника до ввода продукта в эксплуатацию, администраторам требуется меньше интеграций и настроек.

Михаил Зайцев: Нельзя обучить модель без качественных данных, поэтому организация их поставки — критический момент. Кроме того, в сфере ML важно заранее выстроить внутренние процессы: определить, как будет выглядеть процесс разработки, и согласовать это со всеми заинтересованными лицами в компании. Это вопрос внутренней трансформации бизнеса, а не только внедрения ИТ-решений.

Михаил Зайцев, Kolmogorov AI: Нельзя обучить модель без качественных данных, поэтому организация их поставки — критический момент

CNews: Насколько при этом необходимо ваше участие?

Михаил Зайцев: Как вендор мы, безусловно, предоставляем техническую поддержку. Однако свои продукты мы стараемся проектировать так, чтобы пользователи могли самостоятельно менять конфигурации с помощью встроенных инструментов. Это позволяет избежать появления «бутылочного горлышка» на стороне разработки: заказчику не нужно каждый раз обращаться к нам, чтобы адаптировать систему под новые задачи.

Андрей Прохоров: Data Sapience стремится избежать того, что называют вендорлок — зависимостью от конкретного вендора. В основе платформ — сборка исходных кодов всех компонент, но готовые образы на базе открытого кода (Open Source) не используются. Наш вклад состоит в том, что мы значительно дорабатываем и повышаем производительность составляющих и собираем их в единую интегрированную среду, отказоустойчивую и безопасную. Команда исправляет ранее неизвестные в сообществе ошибки, обнаруженные клиентами или разработчиками, а после бэкпортирует исправления. Функционал движков и библиотек постоянно дорабатывается и расширяется. При этом мы вносим изменения так, что созданные клиентские приложения остаются совместимыми с решениями на базе открытого кода (Open Source).

В составе платформы данных есть и уникальные компоненты и сервисы собственной разработки. Они облегчают администрирование, повышают отказоустойчивость и производительность.

CNews: Что дает заказчикам эта интеграция с точки зрения импортозамещения 2.0? Какие зарубежные решения она заменяет, и в чем ее преимущества по сравнению с ними, в том числе в контексте адаптации к специфике российского бизнеса?

Андрей Прохоров: Data Ocean заменяет такие западные системы управления данными, как Greenplum, MS SQL Server, SAP, Cloudera, Oracle, Teradata, Vertica, а Kolmogorov AI — SAS, IBM, Oracle, SAP. При внедрении платформ как раздельно, так и вместе заказчик получает импортозамещающее решение из реестра отечественного ПО, которое поддерживается и развивается внутри российской компании. При этом оно учитывает специфику отечественного рынка — запрос на универсальность размещения. Западные продукты обычно привязаны либо к публичным облакам, либо к локальной установке. А российский рынок требует гибкости. Платформа должна одинаково эффективно работать и во внешнем облаке, и в закрытом внутреннем контуре (оn-premise). Именно такое решение мы и предлагаем клиентам благодаря изначально заложенным современным архитектурным принципам.

С точки зрения развития ИТ-инфраструктуры наше решение, сочетающее Data Ocean Nova и Kolmogorov AI, — это платформа нового поколения. До 2022 года российский бизнес работал на разрозненных системах: классическая СУБД плюс отдельные инструменты для машинного обучения (например, решения от SAS или SAP). Это были разные, часто плохо связанные компоненты. Мы же предлагаем именно единую платформу. Ведущие западные вендоры сейчас тоже двигаются в этом направлении, объединяя управление данными и задачи машинного обучения (ML).

CNews: Есть ли различия в подходе между вашим и западными решениями?

Андрей Прохоров: Среди западных лидеров этого направления можно выделить Databricks и Snowflake. Однако это платформы, построенные вокруг одного проприетарного движка, который отвечает за всю обработку данных. Принципиальное отличие нашего решения в том, что мы предоставляем свободу выбора из четырех равноправных компонентов, каждый из которых максимально эффективно справляется со своей задачей. Также замечу, что Data Ocean Nova — это система, независимая от конкретного облака или облачного провайдера (cloud agnostic), в отличие от западных аналогов.

Михаил Зайцев: В отличие от зарубежных конкурентов мы готовы разворачивать Kolmogorov AI как в защищенных контурах без доступа к сети интернет (on-premise), так и в публичных и частных облаках, либо организовывать гибридные схемы для минимизации TCO. Все зависит от запросов и желаний клиента. При гибридном размещении достигается оптимальный баланс между безопасностью и стоимостью инфраструктуры: модели машинного обучения (MLOps) и большие языковые модели (LLMOps) для агентов, которые работают с чувствительной информацией (в основном — файлами, корпоративными базами знаний, кодовыми базами) располагаются локально (on-premise), а тяжеловесные LLM-модели (большие языковые модели) потребляются в облачной экосистеме.

CNews: Под какие отрасли и типы задач эта интеграция оптимизирована в первую очередь? Какие задачи в разных сегментах бизнеса может решать эта связка?

Андрей Прохоров: Правильно спроектированная платформа должна быть универсальной. Если раньше машинное обучение (ML) было востребовано преимущественно в банках, телекоме и рознице, то сегодня сложно найти сферу, где такой функционал не был бы нужен. Исключение — отрасли, где не требуется обработка больших объемов данных или принятие решений в близком к реальному времени, но таких в современном мире практически не осталось.

Михаил Зайцев: Данные — это «цифровая нефть»: чем выше качество, тем эффективнее бизнес-процессы. Если рассматривать окупаемость инвестиций (ROI) разработки и внедрения моделей, то точные прогнозы напрямую экономят или зарабатывают деньги. Существуют также модели, связанные с регуляторными требованиями, которые приносят огромный экономический эффект. Например, внедрив модели по утвержденной методологии, банки могут претендовать на льготы по ставкам резервирования. Но все это работает только на качественных данных.

Огромный спектр задач для подобных платформ в промышленности. Предиктивная аналитика служит для моделирования процессов и предсказания вероятности сбоев, что позволяет предотвращать поломки и избегать убытков от простоя. Компьютерное зрение помогает обеспечивать безопасность на производстве и контролировать качество продукции.

ИИ-агенты — новое поколение инструментов. Например, агент-помощник по эксплуатационной документации позволяет сотруднику не держать в голове сотни страниц инструкций, а оперативно получать ответы на вопросы. А ИИ-тренер может проводить автоматизированную аттестацию персонала.

Андрей Прохоров: В ритейле и клиентских сервисах работа с данными строится как цепочка алгоритмов. Все начинается с базового прогноза событий: склонности к покупке или, напротив, отказу от нее. Однако предсказать событие — это только первый шаг. Гораздо сложнее рассчитать реакцию: что именно предложить клиенту (скидку, бонус или новый сервис), чтобы удержать его, сохранив при этом прибыльность операции для компании. Финальный этап — это когда модели выбирают из множества вариантов тот, который наиболее релевантен клиенту в данный момент. Даже такая, казалось бы, простая задача, как удержание клиента, требует работы множества моделей для принятия точного и экономически выгодного решения.

Более сложные задачи включают использование ИИ-агентов для персонализации общения. Важно, чтобы клиент взаимодействовал не с примитивным ботом, а с интеллектуальной системой, способной на качественный диалог. Кроме того, генеративные модели помогают оптимизировать работу маркетологов, создавая варианты текстов и визуальных материалов.

На высшем уровне стоят задачи стратегической оптимизации маркетинга. Это сложные математические модели, которые позволяют управлять стратегией в масштабах всей компании. Они помогают проводить анализ уровня: «Что произойдет с выручкой, если мы удвоим бюджет на привлечение?» и связывать воедино затраты, метрики поведения клиентов и итоговую прибыль.

CNews: Такая интеграция — достаточно ресурсоемкое решение. Где баланс между стоимостью внедрения и окупаемостью? Каков порог входа?

Андрей Прохоров: Как правило, внедрение крупной системы происходит постепенно. Начинают с локальной бизнес-задачи — скажем, вывода на рынок нового продукта или повышения эффективности какого-то бизнес-процесса. Под эту задачу подбираются компоненты платформы и необходимые данные.

Запускается цикл: сбор данных, разработка и обучение модели, вывод в эксплуатацию. Затем измеряется реальный финансовый результат. Этот этап может длиться от месяца до полугода, пока мы не зафиксируем устойчивый бизнес-эффект. После подтверждения окупаемости постепенно добавляются новые оптимизационные задачи.

CNews: Какие векторы развития вы видите приоритетными для этой интеграции и почему? На каких направлениях сфокусируетесь в ближайшее время?

Андрей Прохоров: Приоритетным вектором развития для нас является полная интеграция функций ИИ в Lakehouse-платформу данных (гибридное озеро-хранилище) Data Ocean Nova. Мы считаем, что будущее — за естественным интерфейсом взаимодействия. Пользователь (даже без глубоких технических знаний) сможет обращаться к системе обычным текстом или голосом и получать осмысленные ответы. Также мы инвестируем в автоматизацию процессов миграции с устаревших систем на нашу платформу с применением ИИ.

Михаил Зайцев: В рамках платформы Kolmogorov AI мы активно развиваем инструменты для создания ИИ-агентов. Наша задача — не просто предоставить готовые интерфейсы, а дать разработчикам среду для проектирования собственных агентных систем внутри общего ландшафта. Весь фокус 2025–2026 годов будет направлен на развитие этой экосистемы, чтобы сделать работу с данными максимально доступной и интеллектуальной.

CNews: Какие актуальные тренды в области развития ИИ вы могли бы выделить?

Михаил Зайцев: Во-первых, ИИ становится демократичнее. Появились компактные модели, не требующие мощностей огромных дата-центров. При этом они обеспечивают качество, которое еще полгода назад было доступно только в облаке по подписке. Это открывает путь к локальным инсталляциям: модели работают внутри закрытого контура компании, что гарантирует безопасность и исключает утечки данных.

Второй важный тренд — агентизация. Бизнес все лучше понимает, как устроены агентные архитектуры и в чем их преимущества.

Андрей Прохоров: С точки зрения пользователя платформа все больше уходит «в тень». Если раньше пользователь обращался к платформе на ее специфическом языке, то теперь коммуникация постепенно сводится к системе взаимодействующих агентов. Традиционный интерфейс СУБД уступает место среде, которая скрывает технические особенности платформы и фокусируется исключительно на решении задачи пользователя.

CNews: Как вы оцениваете этот тренд? Есть ли минусы в том, что пользователь перестает видеть сложность платформы?

Андрей Прохоров: Это может привести к снижению уровня технической подготовки. Если раньше пользователю требовалось глубокое понимание системы и умение грамотно формулировать запрос, то теперь он ожидает, что платформа сама поймет его намерения и предложит решение. Это не хорошо и не плохо — это данность. Эволюция интерфейсов неизбежна, и наша задача — не просто адаптироваться к переменам, а возглавить их.

Рекламаerid:2W5zFHNWF6HРекламодатель: ООО Дата СапиенсИНН/ОГРН: 9701181979/1217700358083Сайт: https://datasapience.ru/