Спецпроекты

1916

oбзор

Обзор: Аналитика 3.0 – 2020

Максим Белозеров, «Сбербанк»

Максим Белозеров, «Сбербанк»:

Что делать, чтобы ИИ-алгоритмы не допускали критических для бизнеса ошибок

По мере развития направления Data Science компании все больше стремятся сделать работу с искусственным интеллектом доступной для специалистов, которые не являются профессиональными программистами. О решении этой задачи в интервью CNews на примере платформы Sber.DS рассказал управляющий директор «Сбербанка» Максим Белозеров.

CNews: Расскажите о разработке Sber.DS: какие предпосылки с точки зрения бизнеса и ИТ были у проекта?

Максим Белозеров: Sber.DS — это платформа для создания, валидации и бизнес-мониторинга моделей искусственного интеллекта (ИИ), которую в течение двух последних лет мы разрабатываем вместе с компанией EPAM, одним из наших стратегических ИТ-партнеров. Предпосылки кроются в особенностях бизнес-процессов «Сбербанка». Для повышения их эффективности мы используем машинное обучение и искусственный интеллект. Сейчас у нас в разработке и эксплуатации более двух тысяч моделей ИИ, и за последнее время их количество удваивалось от года к году.

Стремительное развитие технологий, которое мы наблюдаем, делает возможным использование более сложных математических алгоритмов. Если еще несколько лет назад большинство моделей строилось с использованием легко интерпретируемых алгоритмов, то сейчас значительное их количество — это сложные алгоритмы black box с нетривиальной логикой принятия решений.

Модели начинают использоваться в различных процессах для автоматического принятия бизнес-решений. Но кто сказал, что модели не могут ошибаться? В настоящее время известно множество различных примеров, демонстрирующих негативные последствия ошибок в работе моделей. Иногда такие последствия могут быть крайне серьезными. В публичном пространстве обсуждались кейсы, в рамках которых капитализация компаний существенно страдала из-за ошибок моделей. Поэтому перед нами встала задача создания системы, которая позволяла бы делать проверку на соответствие требованиям качества моделей, чтобы вероятность ошибочных решений была минимизирована. При этом такие проверки должны проводиться в автоматизированном режиме. Еще один фактор принимаемый во внимание — это объем обрабатываемых данных, который в «Сбербанке» измеряется десятками петабайт.

Проанализировав наши потребности и ограничения, мы пришли к выводу, что готовой системы, которая бы удовлетворяла всем критериям «Сбербанка», на текущий момент на рынке нет. Так было принято решение инвестировать в собственную разработку, с которой нам вызвались помочь коллеги из ЕРАМ.

CNews: Какие задачи решает система?

Максим Белозеров: Задачи определяются компонентами, которые в нее включены, сейчас их несколько.

Первый компонент — система управления жизненным циклом моделей, которую мы называем библиотекой моделей. Она предназначена для управления действиями пользователя на пути разработки модели от идеи до внедрения в промышленную эксплуатацию. В бизнес-процесс создания и использования моделей в банке вовлечено большое количество экспертов, и у каждого из них разные функции и роли. Главная задача системы управления жизненным циклом — это оркестрация процесса разработки моделей и управление операциями, которые выполняются в его рамках. Кроме того, библиотека является центральным хранилищем всех знаний по моделям и модельным инициативам.

Второй компонент — система ускоренной разработки и валидации моделей. Она необходима для того, чтобы процесс создания модели и проверки ее качества был более простым и понятным. Система представляет собой визуальный конструктор, использование которого позволяет пользователям с любым уровнем начальной подготовки в кратчайшие сроки и без программирования построить качественную модель. Таким образом, мы существенно снижаем порог входа в машинное обучение и переходим от низкоуровневой задачи написания кода сразу к решению стратегических задач, планированию эксперимента и проверки бизнес-гипотез.

Пример типового сценария. Источник: «Сбербанк»

Sber.DS упрощает процесс проверки качества моделей. Сначала мы решаем математическую задачу, связанную с проверками соответствия модели заявленным требованиям. Затем идет этап альтернативного моделирования. Мы проверяем, можно ли разработать более простую модель, сопоставимую по качеству, ведь чем проще модель, тем она стабильнее, а также можно ли построить более сложную модель, но с существенно улучшенным качеством. Наша платформа быстро выполняет все необходимые математические проверки, а также быстро осуществляет процесс альтернативного моделирования с использованием специализированных библиотек AutoML, разрабатываемых в «Сбербанке». Все типовые алгоритмы в ней реализованы в виде графических объектов — «кубиков». Из этих кубиков мы легко и быстро можем создать модель любой сложности, просто соединяя кубики между собой. В результате тратится в разы меньше времени, чем если бы мы писали код на исходном коде (Python, R, Spark).

В итоге мы получили базу готовых алгоритмов, соединяя которые можно создавать workflow. При этом есть отдельная рекомендательная система, которая состоит из заранее построенных моделей. И если я решаю задачу классификации, мне не нужно каждый раз собирать кубики. Я могу один раз построить эту модель, сохранить ее как рекомендательный шаблон и потом просто переиспользовать его. А если возникнет задача, которую невозможно решить с помощью имеющейся библиотеки, то пользователь может создать свои собственные кубики абсолютно на любом языке программирования. В этом большое преимущество нашей платформы: мы не просто решили задачу масштабирования функционала, но еще и существенно сократили себестоимость этого расширения. При этом наша система не зависит от языка программирования.

Третий компонент платформы — это система мониторинга моделей, которые находятся в промышленной эксплуатации. Workflow запускается по расписанию, а результатом его работы создается отчет, который говорит нам о качестве модели.

CNews: Какова архитектура платформы?

Максим Белозеров: Платформа может использоваться и в облаке, и в качестве установленного приложения. Архитектура построена полностью на микросервисах, которые общаются друг с другом по REST API и потребляют не более 4-8 Гб оперативной памяти. Каждый из них должен обеспечить возможность горизонтального масштабирования запросов с запуском новых экземпляров. Ядро приложения написано на Java с использованием Spring Framework. Решение изначально проектировалось для быстрого развертывания в облачной инфраструктуре, поэтому построено с помощью системы контейнеризации Red Hat OpenShift и Kubernetes.

Получилась классическая трехзвенная архитектура. Есть фронт, который является инструментом работы с пользователем, есть ядро и вычислительный кластер, на котором данные либо хранятся, либо обрабатываются. На фронте — классический JavaScript, ядро — это Spring, а вычислительный кластер — архитектура Hadoop или OpenShift.

Концептуальная верхнеуровневая архитектура. Источник: «Сбербанк»

CNews: Как бы вы сформулировали ключевые особенности платформы?

Максим Белозеров: Особенность платформы в том, что мы поддерживаем обучение и запуск моделей, разработанных с помощью нашего визуального конструктора, практически на любой инфраструктуре. Мы уже поддерживаем как Hadoop, так и OpenShift. Также существует возможность использования внешней облачной инфраструктуры для обучения моделей. На случай, если нам потребуются мощные GPU-кластеры для сложных нейросетей, в платформе реализована интеграция с суперкомпьютером «Кристофари». Мы серьезно подходим к вопросам безопасности, особенно когда это касается запуска стороннего кода. Мы используем все современные возможности ядра Linux, где каждому запущенному в изоляции окружению можно ограничить доступ к данным и локальному диску. Использование изоляции при запуске на Hadoop — это наше техническое ноу-хау.

CNews: Как взаимодействовали команды EPAM и «Сбербанка» во время реализации проекта?

Максим Белозеров: Мы реализуем наш проект в соответствии с методологией Agile. Были протестированы несколько вариантов формирования объединенных команд, остановились на том, который показался наиболее продуктивным: владельцами продуктов являются сотрудники банка, а члены команд формируются из объединенных групп EPAM и «Сбербанка».

CNews: С какими сложностями пришлось столкнуться и как команды их преодолели?

Максим Белозеров: Мы разрабатываем инновационный продукт. Аналогов в России у него не существует, а зарубежные решения не до конца закрывают наши потребности. У нас не было возможности посмотреть, как подобные решения сделаны у кого-то с архитектурной точки зрения, чтобы увидеть недостатки и сразу их учесть у себя в проекте. Поэтому в ходе реализации проекта мы натыкались на определенные ошибки. Мы что-то делали, понимали, что идем не туда, возвращались обратно, опять реализовывали этот функционал, но уже по-другому. Проект в работе полтора года, за это время архитектура поменялась незначительно, но несколько раз мы переосмысливали микросервисы: как они должны формироваться и каким образом решать задачи. Мы включали в архитектуру новые технологические решения, например, сейчас начинаем подключать шину Kafka.

Так что можно сказать, что основная сложность, с которой мы столкнулись — инновационность проекта. Порой не хватало экспертизы, но явных провалов у нас не было. Менялись только технологии, с помощью которых мы реализовывали отдельные задачи. Здесь нам был очень полезен опыт EPAM, полученный в результате работы этой компании на международном рынке, их компетенции в области построения архитектуры решений, микросервисов и разработки систем искусственного интеллекта.

CNews: Каких результатов уже удалось достичь?

Максим Белозеров: Все компоненты платформы находятся в стадии опытной эксплуатации в банке. В связанных с ними бизнес-процессах участвуют более тысячи человек. Внедрение в бизнес-процессы мы начали с 2019 года. Сейчас эта история носит уже масштабный характер, коллеги дополняют платформу, разрабатывая собственные кубики и проекты. Совместно с финансовым блоком мы запустили проект мониторинга моделей банка, который получил название «Сфера». Он полностью построен на Sber.DS.

CNews: «Сбербанк» планирует использовать новую платформу в качестве собственного внутреннего ресурса или к платформе будут иметь доступ другие банки, используя ее как услугу?

Максим Белозеров: Платформа уже используется в корпоративном университете для обучения слушателей в рамках программ развития цифровых навыков. Это дочернее объединение, но, тем не менее, это внешняя компания. Пока мы тиражируем нашу платформу в «Сбербанк» и дочерние зависимые объединения. Мы думаем про выход на внешний рынок, но окончательное решение пока не принято.

CNews: Существуют ли российские или зарубежные аналоги у новой платформы?

Максим Белозеров: Нельзя сказать, что аналогов совсем нет. Вопрос в том, что считать аналогом. В магическом квадранте Gartner, где показаны платформы, нацеленные на решение задач Data Science и машинного обучения, отмечены основные наши конкуренты. В первую очередь мы относим к ним Amazon, Microsoft, Google, Huawei и C3.ai. Но это все иностранные компании. В рамках существующих санкционных ограничений инвестировать в них можно, но есть нюансы. К тому же, они не решают все задачи, которые есть у нас. Эти компании могут доработать свои решения под нас, но за какую стоимость?

Магический квадрант Gartner платформ, нацеленных на решение задач Data Science и машинного обучения

Платформы, которые позволяют решать сложные задачи в области Data Science простым людям, не имеющим профильного образования, находятся на подъеме. Инвестиции в это направление будут вливаться еще 5-10 лет. К 2023 году они составят $311 млрд, а это бюджет России. У «Сбербанка» есть все шансы стать технологическим лидером в этой области.

CNews: Какие цели по развитию платформы вы ставите на будущее?

Максим Белозеров: В первую очередь, это удобная работа с большими данными. Их объем не должен быть препятствием для извлечения из них знания. Второе — это возможность работы с моделями любой сложности. Мы должны уметь решать сложные задачи с использованием моделей глубокого обучения так же легко, как мы решаем задачи обычной логистической регрессии. Третье — платформа должна стать доступной для пользователя с любым уровнем подготовки. Надеемся, что вместе с коллегами из EPAM мы успешно справимся и цели будут достигнуты.

Вернуться на главную страницу обзора