Предпосылки преобразования ИТ-инфраструктуры

После присоединения к ВТБ Банка Москвы и ВТБ24 ИТ-архитектура банка представляла собой три обособленные инфраструктуры с разнородным технологическим стеком, собственными хранилищами разного объема и самостоятельными моделями управления данными. ВТБ принял решение провести масштабное преобразование существующего ИТ-ландшафта и создать единую высокотехнологичную платформу данных с общим хранилищем и объединенным аналитическим контуром. Новая платформа данных должна помочь банку снизить TCO (total cost of ownership), сократить time-to-market и сроки публикации обязательной отчетности.

Выбор технологической основы для новой платформы данных

После того, как к ВТБ присоединились Банк Москвы и ВТБ24, ИТ-архитектура банка представляла собой три обособленные инфраструктуры

Основными критериями выбора технологического ядра для новой платформы стали надежность, безопасность, функциональность, масштабируемость, возможность влиять на развитие платформы и уровень технической поддержки. Банк проанализировал различные варианты решений от международных и отечественных производителей.

По совокупности критериев предварительный выбор был сделан в пользу отечественного программно-аппаратного комплекса СКАЛА-СР на базе платформы сбора и хранения больших данных Arenadata EDP (Enterprise Data Platform). Для принятия окончательного решения были проведены тестовые испытания с целью проверки работоспособности нового решения и подбора оптимальной конфигурации.

Тестирование мы проводили на сопоставимых мощностях и объемах данных по двум ключевым направлениям: производительность СУБД, в ходе которого сравнивались возможности Arenadata DB и Oracle SuperCluster, а также Arenadata Hadoop, который сравнивали с Oracle BigData Appliance. Программные продукты Arenadata продемонстрировали высокие показатели производительности и стабильности, — рассказывает Александр Бусыгин, начальник управления «Фабрика данных» банка ВТБ.

Пилотный проект СПО

Пилотный проект миграции системы подготовки обязательной отчетности с СУБД Oracle SuperCluster на колоночную массивно-параллельную аналитическую СУБД Arenadata DB (ADB) стартовал в мае 2020 г. Для подготовки регулярной отчетности в ВТБ уже в течение шести лет эксплуатируется аналитическое решение, разработанное на базе платформы развития бизнеса Digital Q Reporting Solutions (ранее — FLEXTERA BI) компании «Диасофт».

На старте проекта с целью сравнения функционала Arenadata DB с Oracle SuperCluster команда ВТБ совместно с «Диасофт» провела тестирование нового решения на одном из «тяжелых» расчетов витрин из СПО. Эксперты оценили возможность успешной миграции и проверили производительность своего решения на новой платформе. Замеры показали как минимум двукратное ускорение при переходе на новую СУБД.

Переход на решения российских поставщиков позволит ВТБ быстрее выводить новые продукты на рынок

В ходе первого этапа на новую СУБД было переведено около 150 ТБ архивных данных. Для ускорения миграции специалисты ВТБ совместно с экспертами «Диасофт» разработали новый инструмент, который интегрировали с СУБД Oracle (для выгрузки данных) и с внутренними сервисами Arenadata (для их загрузки). Такое решение позволило переносить данные в параллельном, а не в последовательном режиме. Средняя скорость миграции увеличилась в несколько раз.

Для параллельной миграции данных мы использовали инструмент на продуктивной среде банка с единовременным запуском 32 сессий передачи данных. При таком подходе за один час осуществлялась миграция более 3 ТБ данных, — говорит Игорь Шабанин, заместитель директора департамента «Экономика данных» компании «Диасофт».

На втором этапе на новую платформу были переведены расчеты витрин данных СПО. При этом удалось добиться двукратного ускорения процессов формирования отчетных форм. Уже по итогам первых двух этапов возросла скорость доставки конечным пользователям критически важных данных. Еще одним результатом миграции стала экономия места в хранилище (данные, которые в Oracle занимали 50 ТБ, в Arenadata DB занимают 30 ТБ). Дополнительно команда проекта сформировала перечень рекомендаций по портированию кода из Oracle в СУБД Arenadata. В настоящий момент проект миграции СПО на Arenadata DB продолжается.

Проект ЦЕХ

Успешные результаты первых этапов проекта СПО дали старт масштабному проекту создания целевого единого хранилища банка с миграцией хранилища данных и озера данных на отечественные продукты. Проект стартовал в начале 2019 г.

По итогам этой миграции банк рассчитывает снизить стоимость владения ИТ-платформой, повысить качество и доступность данных, увеличить скорость предоставления сервисов для бизнеса, нивелировать санкционные и валютные риски.

Аналитическая архитектура банка после слияния трех бизнес-структур представляла собой стек решений от разных производителей. Задача по построению целевой аналитической архитектуры подразумевала создание единого слоя интегрированных данных на основе общих технологий и процессов. Команда проекта провела работу по проектированию архитектуры нового решения и сформировала целевой стек на базе программно-аппаратных комплексов СКАЛА-СР (на серверах x86-архитектуры) и программных продуктов Arenadata, — отмечает Дмитрий Бутмалай, директор департамента продвижения и развития компании Rubytech, которая участвовала в этом проекте.

Итоговое решение включает в себя следующие продукты:

  • Программно-аппаратный комплекс СКАЛА-СР/ADB на базе колоночной массивно-параллельной аналитической СУБД Arenadata DB. Это — основа для создания централизованного хранилища данных с единой бизнес-моделью, которое включает в себя специализированные витрины для ad-hoc-аналитики и банковских приложений, витрины с оперативными данными и пользовательские песочницы.
  • Программно-аппаратный комплекс СКАЛА-СР/ADH на базе хранилища для обработки слабоструктурированных и неструктурированных данных Arenadata Hadoop. Используется как решение для продвинутой аналитики направления Data Science.
  • Программно-аппаратный комплекс СКАЛА-СР/ADS на базе масштабируемой отказоустойчивой системы Arenadata Streaming. Применяется для потоковой обработки данных в режиме реального времени.

На сегодняшний день полностью развернута инфраструктура для создания целевого единого хранилища и озера данных. Все хранилища данных банка начали поэтапную миграцию на новую единую платформу. Комплексная реализация проекта должна быть завершена в 2022 г. Следующим этапом станет подключение специализированных витрин и перенос на новую платформу прикладных бизнес-приложений.