Разделы

Бизнес Цифровизация

Илья Захаров, «Группа Астра»: Современный мониторинг должен отслеживать деньги, а не серверы

Директор департамента разработки средств мониторинга «Группы Астра» Илья Захаров в интервью CNews рассказывает о том, как современные платформы наблюдаемости (Observability) превращаются из инструмента для ИТ-специалистов в стратегический актив для бизнеса. Эксперт объясняет, почему возможность отслеживать каждую бизнес-операцию в реальном времени напрямую влияет на финансовые результаты компании.

CNews: Многие компании до сих пор рассматривают ИТ-мониторинг лишь как инструмент для отслеживания метрик оборудования. Каким образом, по вашему мнению, современная технология наблюдаемости (Observability) выходит за эти рамки и превращается в стратегический инструмент для повышения прибыли?

Илья Захаров: Распространено мнение, что мониторинг является узкоспециализированной областью, интересной исключительно системным администраторам для отслеживания производительности серверов. Однако современная мировая ИТ-инфраструктура эволюционировала: широкое распространение получили no-code платформы и serverless-технологии, где инфраструктура полностью предоставляется облачным провайдером. Клиенты оперируют на уровне сервисов, а не оборудования. Соответственно, современные платформы мониторинга сфокусированы на отслеживании производительности бизнес-операций: добавлении товара в корзину, оплата заказа, оформления кредита, перевода средств — то есть всех тех транзакций, которые пользователи ежедневно совершают с помощью мобильных устройств.

Таким образом, платформы наблюдаемости должны отвечать новым требованиям: расширять сбор данных не только с уровня оборудования (SNMP, IPMI), но и, в первую очередь, с уровня бизнес-операций. Необходимо отслеживать производительность каждой транзакции: её продолжительность, процент ошибок за определённый период, маршрут прохождения. Концепция Observability зародилась на основе трейсинга (tracing), который позволяет отслеживать запрос и очень близок к понятию «бизнес-операция». Иногда операция может состоять из нескольких трейсов, но это техническая деталь.
Ключевое преимущество — как только вы начинаете отслеживать каждую операцию, вы получаете измеримость и контроль. Вы видите, сколько клиентов воспользовалось услугой (например, переводом средств), и сразу можете идентифицировать неудачные попытки, которые привели к потере выручки. Это позволяет непосредственно оценивать бизнес-влияние технологических сбоев, что возможно только в современном цифровом мире с технологиями наблюдаемости.

Илья Захаров, «Группа Астра»: Упрощение мониторинга — это моя личная профессиональная цель

CNews: Илья, почему из всех направлений в ИТ вы выбрали именно мониторинг?

Илья Захаров: В известной степени это стало результатом стечения обстоятельств. Однако, погрузившись в данную область, я оценил глубину возможностей, которые современные технологии мониторинга предоставляют для бизнеса. В 2018 году я начал работать с продуктом AppDynamics, ключевой инновацией которого стала конвергенция мониторинга бизнес-показателей и ИТ-инфраструктуры. Это крайне актуально, поскольку бизнес-модели претерпели значительную трансформацию, и большинство компаний ведут операции через цифровые каналы. Следовательно, работоспособность такого канала напрямую определяет работоспособность бизнеса в целом. Если приложение, через которое осуществляются продажи товаров и услуг, недоступно, бизнес-процессы останавливаются, что приводит к прямым финансовым потерям. Именно это определило мой профессиональный фокус, и сейчас я развиваю продукт Астра Мониторинг в ПАО «Группа Астра».

CNews: Технология наблюдаемости опирается на три столпа: логи, метрики и трейсы. Каким образом одновременное использование всех трех типов данных, в отличие от точечного мониторинга, влияет на бизнес-процессы?

Илья Захаров: На глобальном рынке эти три компонента изначально развивались обособленно. Яркий пример — компания Splunk, построившая бизнес на анализе логов. Для трейсинга можно привести в пример Dynatrace, а для метрик — Zabbix. Эти решения эффективны в своих узких областях, но мы наблюдаем тенденцию к их интеграции и выходу на смежные рынки — например, Splunk интегрируется в портфель наблюдаемости Cisco вместе с AppDynamics.

Когда источники данных разрознены, специалист должен обладать высокой экспертизой, чтобы интерпретировать и коррелировать данные между собой. Система мониторинга логов может показывать ошибки в сервисе, но как это связано с метриками в другой системе? Влияют ли эти ошибки на ключевые бизнес-показатели, например, на скорость обработки кредитных заявок или объёмы отгрузки продукции? Только агрегация всех трёх типов данных даёт чёткий ответ на вопрос, как состояние ИТ-инфраструктуры влияет на бизнес-результаты.

CNews: Каким образом платформа Observability способствует сокращению общего времени простоя (MTTR) и как это влияет на ключевые финансовые показатели?

Илья Захаров: Следует уточнить, что MTTR (Mean Time to Restore) — это среднее время восстановления после инцидента за определённый период, например, за месяц. Для восстановления работы необходимо сначала определить причину и масштаб сбоя. Платформы Observability предоставляют точные ответы на эти вопросы.

Во-первых, на уровне трейсов видно, какие бизнес-операции затронуты. Затем, с помощью метрик и логов, можно оценить общий масштаб инцидента и определить, какие именно сервисы повлияли на работоспособность бизнес-функции. Это существенно сокращает время на поиск корневой причины для её последующего устранения.

Часто, если не удаётся оперативно найти причину сбоя (например, приложение полностью недоступно), команды вынуждены прибегать к перезагрузке компонентов, после чего работа может восстановиться. В сложных ИТ-архитектурах такой метод иногда срабатывает, но он не устраняет первопричину, а значит, инцидент повторится. Таким образом, второй важный фактор — это предотвращение повторяющихся инцидентов.

Третий аспект — создание единого источника достоверной информации (single source of truth) для всех команд. В расследование инцидента в средней или крупной компании включены более 10 специалистов: администраторы, специалисты по базам данных, поддержке приложений, разработчики. Для такой разнородной группы критически важен единый интерфейс для совместной работы. В противном случае каждый участник использует свой инструмент, что приводит к значительным операционным издержкам из-за отсутствия общей картины и необходимости согласования данных — своего рода вавилонская башня в миниатюре.

CNews: Что вы думаете по поводу процессов мониторинга в современных компаниях? Где именно возникает в них платформа наблюдаемости?

Илья Захаров: Это важный вопрос, поскольку любой инструмент не приносит ценности, если его не используют. Внедрение мониторинга или наблюдаемости — это комплексная задача, требующая дисциплины и экспертизы. При вводе в эксплуатацию новых элементов, будь то оборудование, приложения или новые релизы, необходимо сразу решать вопрос контроля их производительности. Оптимальным решением для этого является платформа наблюдаемости.

Далее необходимо визуализировать данные и настроить оповещения. В «Астра Мониторинг» значительные ресурсы направлены на предоставление клиентам простого и удобного централизованного инструмента для контроля производительности приложений, включая единую «карту здоровья» инфраструктуры и функционал мониторов для централизованной настройки правил.

Кроме того, должен быть отлажен процесс создания рабочих групп и предусмотрены чёткие цепочки эскалации: клиент сам определяет, какие специалисты подключаются к работе с платформой для локализации инцидента и восстановления работы.

И наконец, ключевой процесс — post-mortem анализ, глубокое расследование произошедшего инцидента с последующими выводами. Если во время простоя главная задача — как можно быстрее восстановить работу, то цель post-mortem — извлечь уроки и внедрить их в практику, чтобы предотвратить повторение подобных инцидентов в будущем.

CNews: Что представляет собой технология единого агента? Чем она полезна для бизнеса?

Илья Захаров: Единый агент существенно автоматизирует развёртывание элементов платформы наблюдаемости на приложениях. Он позволяет автоматически настроить сбор метрик, трейсов и логов на каждом хосте, где он установлен. Это значительно сокращает время подключения всего приложения к мониторингу. Кроме того, в случае каких-либо изменений в конфигурации агент автоматически их выявляет и передаёт актуальные данные в платформу мониторинга.

CNews: В чем для бизнеса заключаются ключевые отличия полноценной Observability-платформы от набора разрозненных open-source инструментов?

Илья Захаров: Тот факт, что американские производители платформ наблюдаемости, такие как Datadog и Dynatrace, представлены на фондовых биржах, свидетельствует об успешности их бизнеса и о том, что клиенты выбирают их решения вместо набора разрозненных open source-инструментов.

На первый взгляд, open source-решения бесплатны и не требуют лицензионных отчислений, однако их фактическая стоимость высока: они требуют привлечения высококвалифицированных специалистов экстра-класса, а не инженеров среднего уровня. Для большинства компаний, не являющихся технологическими лидерами, привлечение таких специалистов сопряжено с чрезвычайно высокими затратами на заработную плату. Следовательно, open source дорог с точки зрения стоимости владения и поддержки, кроме того при уходе ключевых специалистов вся система мониторинга просто может не пережить этого.

Более того, ключевой аспект вопроса — именно в разрозненности инструментов. Это означает, что используются отдельные системы для метрик, логов и трейсов. Каждая из них потребляет собственные ресурсы инфраструктуры, оборудование, системы хранения и вычислительные мощности, что увеличивает соответствующие затраты как минимум втрое. При необходимости внедрения компонентов искусственного интеллекта их также придётся закупать и внедрять отдельно для каждой системы. Каждое решение с открытым кодом нужно поддерживать, а значит содержать команду специалистов.
Наконец, критически важна степень интеграции. Как уже отмечалось, разрозненные инструменты, по отдельности отслеживающие метрики, логи и трейсы, не решают конечную задачу, предоставляя лишь ограниченную видимость. Во время инцидента, когда команды работают в условиях стресса, эта ограниченность напрямую влияет на время его расследования. Таким образом, ключевое преимущество готовых платформ — предоставление полной наблюдаемости «из коробки», что существенно сокращает MTTR и повышает общую надёжность и отказоустойчивость приложений.

CNews: Как реализация «зонтичного мониторинга» помогает преодолеть разрозненность данных и каковы бизнес-выгоды от технологии?

Илья Захаров: Технологии зонтичного мониторинга (umbrella monitoring) возникли в ответ на первую волну ИТ-автоматизации, когда вендоры поставляли оборудование со своими системами мониторинга. Клиенты, использовавшие оборудование разных производителей, сталкивались с необходимостью мониторинга каждого компонента отдельным решением. Для агрегации этих данных был разработан дополнительный программный слой поверх существующих систем.

Я считаю, что современная платформа наблюдаемости полностью устраняет необходимость в таких «зонтичных» надстройках. Она должна собирать данные со всех уровней сама, и только такой подход позволяет говорить о достижении конкретных бизнес-результатов. Продукт «Астра Мониторинг» реализован именно по этому принципу. Однако для клиентов, находящихся на переходном этапе и уже инвестировавших в собственные платформы мониторинга, мы предоставляем открытые API для загрузки данных в нашу платформу по принципу зонтичного решения.

CNews: Как вы думаете, мониторинг это по-прежнему hacker-like инструменты или все-таки идет тренд на облегчение и упрощение?

Илья Захаров: Упрощение мониторинга — это моя личная профессиональная цель. Я ежедневно вижу, как специалисты работают с инструментами предыдущего поколения — это крайне сложные решения, требующие длительной настройки и ручной поддержки при каждом изменении, что отнимает значительное время.

При этом многие инженеры получают удовлетворение от решения сверхсложных задач мониторинга с помощью примитивных бесплатных инструментов. Безусловно, это демонстрирует высокий уровень экспертизы, однако часто такая задача не должна была возникать в принципе. Эффективнее было бы использовать современную платформу, которая автоматизирует большую часть этих процессов.

В «Астра Мониторинг» простота и удобство использования являются приоритетом. Мы считаем, что современные ИТ-инструменты должны быть максимально простыми и понятными для пользователя, как с точки зрения развёртывания (единый агент), так и с точки зрения автоматизации. Подключение новых элементов максимально автоматизировано, а процесс расследования инцидентов — упрощён.

Более того, в этом году мы начали внедрять элементы искусственного интеллекта для автоматизации диагностики инцидентов, двигаясь в сторону создания ИИ-ассистента, который будет помогать сотрудникам в расследованиях.

CNews: С 2022 г. бизнес активно переходит на отечественные технологии. Какие иностранные сервисы успешно заменяет ваш продукт?

Илья Захаров: Действительно, на рынке представлено множество брендов, которые можно сгруппировать по типам решений. Наш продукт успешно замещает решения для мониторинга метрик, подобные Zabbix, Nagios, IBM Tivoli или SolarWinds.

Мы эффективно заменяем решения для агрегации и хранения логов, такие как Splunk и Elasticsearch. Кроме того, мы готовы работать с клиентами, которые ранее использовали технологии трейсинга зарубежных вендоров: AppDynamics, Dynatrace, New Relic и другие.