Евгений Колесников

Евгений Колесников:

Машинное обучение, или Как бизнес практикует прикладную магию

Системы машинного обучения (Machine Learning, ML) помогают бизнесу решать конкретные задачи: они предсказывают наступление тех или иных событий и рекомендуют наиболее адекватные действия в сложившейся ситуации. Узкая специализация позволяет создавать эффективные решения, но при этом плохо стимулирует развитие рынка. Заказчики не готовы делиться информацией о продуктах, дающих им конкурентные преимущества, а без практических примеров сложно объяснить новым клиентам, где и как применяются данные системы. О том, как сегодня развивается рынок машинного обучения в России, рассказывает Евгений Колесников, руководитель направления «Большие данные и машинное обучение» центра программных решений компании «Инфосистемы Джет».

CNews: В «Википедии» сказано, что машинное обучение – это «класс методов искусственного интеллекта». Согласитесь, что обычному человеку это определение ничего не даст. Поясните, пожалуйста, в чем же суть ML?

Евгений Колесников: Системы машинного обучения относятся к классу систем поддержки принятия решений. Они сигнализируют пользователям о событиях (позитивных или негативных) либо дают рекомендации к нужным действиям: сколько товара такой-то категории завести в магазин, сколько наличных денег загрузить в банкомат и так далее. Причем в отличие от классических BI-систем, которые ориентированы на анализ событий постфактум, на базе машинного обучения строится предиктивная (прогнозная) аналитика.

Вероятностные модели как таковые появились задолго до эпохи машинного обучения – методам Байеса уже 300 лет. Что изменилось, так это объемы данных, которые мы можем обрабатывать, и скорость, с которой мы способны это делать. Сегодня возможности машины существенно превосходят возможности любой команды аналитиков.

CNews: Как вы оцениваете рынок машинного обучения и искусственного интеллекта в России? Насколько он развит в сравнении с мировым?

Евгений Колесников: Российский рынок машинного обучения значительно меньше мирового. В это направление активно инвестируют западные компании, такие как IBM, Facebook, Google. Наблюдается интерес со стороны интеграторов и консалтеров. Другие крупные игроки, в первую очередь сервисные и интернет-компании, стремятся шире применять эти технологии, но, как правило, не вносят большого вклада в развитие рыночных предложений. Да и собственно внедрением методов машинного обучения и искусственного интеллекта пока занимаются не более десятка крупных компаний.

Таким образом, можно констатировать, что единого рынка машинного обучения и искусственного интеллекта со своими лидерами и «законодателями мод» в России нет. Есть разрозненные компании, которые подходят к вопросу машинного обучения каждая со своей стороны. Интернет-компании занимаются разработкой для собственных нужд, а потом пытаются использовать эти решения для предоставления сервисов другим игрокам. Интеграторы ориентируются на прикладные задачи крупного бизнеса. Стартапы нацелены на узкоспециализированные задачи.

CNews: Что тормозит развитие этих технологий в нашей стране?

Евгений Колесников: Исторически Россия славится высоким качеством академических знаний и обилием «умных голов». Но, к сожалению, крайне мало тех, кто умеет применить эти знания для решения прикладных задач. Первое, что тормозит развитие технологий, – это отсутствие профильных направлений в вузах. Наши вузы выпускают хороших математиков, программистов, инженеров, а бизнесу нужны практики – data scientists. Его не интересует обработка и анализ данных сами по себе – все это нужно для какой-то цели: оптимизации процессов или штата сотрудников, экономии денег, снижения рисков и прочее.

Второй фактор – отношение бизнеса, который пока воспринимает машинное обучение как некую «магию». Связь этих технологий с существующими бизнес-процессами для него непрозрачна, и бизнес-заказчик зачастую изначально не верит в успех. Со своими клиентами мы обсуждаем эти вопросы, объясняем смысл работы технологий на практических примерах. Математическую модель можно применять по-разному, и ее задача – не оспорить выводы экспертов, которые те делают в результате ручного анализа данных, а дать рабочий инструмент для повышения скорости и эффективности их деятельности.

Третий фактор, препятствующий активному внедрению машинного обучения, – непонимание заказчиком того, как вообще выглядит такой проект. Собственно внедрение математической модели – это самый простой этап проекта, его «последняя миля». У большой компании, как правило, много разрозненных систем, которые не всегда связаны между собой. А математика очень чувствительна к полноте и качеству данных. Поэтому проект по машинному обучению на 80% состоит из рутинной работы, связанной с подготовкой вычислительной инфраструктуры и организацией процессов ETL (Extract, Transform, Load), то есть сбора данных в едином хранилище, их структурирования и очистки. Эти процессы нужно сделать стабильными и отказоустойчивыми.

CNews: Что, наоборот, может выступать драйвером роста рынка?

Евгений Колесников: Основной драйвер роста – успешные проекты, ставшие публичными кейсами. Чем больше их будет, тем быстрее компании убедятся, что машинное обучение действительно работает. На сегодня публичных кейсов по внедрению технологий машинного обучения, где бизнес озвучивал бы полученные преимущества, очень мало. Обычно крупный бизнес, реализовав такой проект, предпочитает о нем молчать: внедренные математические сервисы – это конкурентное преимущество, и клиенты не хотят, чтобы другие игроки повторили их успех. В послужном списке нашей компании есть несколько интересных проектов, но говорить о них мы не имеем права в силу наложенных заказчиками обязательств.

CNews: Какие инструменты ML вы используете в своих проектах: зарубежные разработки, отечественные решения или собственные продукты?

Евгений Колесников: Для работы с большими данными существует базовый инструментарий Apache Hadoop и связанные с ним платформы. Применительно к машинному обучению это Apache Spark и Apache Mahout. Они составляют базовый фреймворк, на основе которого многие компании, в том числе и наша, строят прикладные решения. Для преодоления некоторых ограничений Apache Spark и построения более сложных математических моделей используются также библиотеки Python.

На базе этих инструментов мы создали собственную платформу, относящуюся к классу систем поддержки принятия решений. Ее ключевые особенности – умение работать с различными источниками данных, предоставление математических моделей для BI-отчетов, поддержка отказоустойчивости, высокой доступности, консистентности данных.

CNews: Для каких задач используется ваша платформа машинного обучения в уже реализованных проектах?

Евгений Колесников: В банковском секторе платформа применяется для выявления мошенничества, как клиентского, так и внутреннего, а также для кредитного скоринга. В ритейле это предсказание невыкупа корзины, сформированной в интернет-магазине. Своевременно определив клиентов, которые с высокой степенью вероятности откажутся от сделанного заказа, ритейлер может либо сэкономить на резервировании товара, либо дополнительно простимулировать клиента к выкупу заказа. На промышленном предприятии платформа используется для прогнозирования производственных дефектов продукции.

CNews: Насколько инструменты ML тиражируемы? Существуют ли типовые решения, подходящие для задач в разных областях?

Евгений Колесников: В области машинного обучения не может быть универсального инструмента ‒ он всегда специализирован под конкретную бизнес-задачу, которая решается с участием аналитиков. Каждая машинно-обученная модель нуждается в ручной кастомизации, полностью автоматизированная модель «из коробки» будет заведомо менее эффективна.

Дело в том, что любые модели со временем деградируют, поскольку меняются входящие признаки и характер взаимосвязей между ними. Простой пример: мы рассчитываем риски невозврата кредитов, и вдруг в стране происходит дефолт. Финансовое поведение людей меняется, и прежняя модель перестает работать. В зависимости от условий она может оставаться актуальной в течение года, нескольких месяцев, недели или пары дней. Поэтому проекты в области машинного обучения – это, как правило, работа аналитиков по построению модели, которая в дальнейшем используется автоматизированной платформой. В отличие от классического внедрения софта, проект машинного обучения требует постоянного отслеживания жизненного цикла существующей модели и ввода новой, а также сравнения результатов их работы.

CNews: Какие требования предъявляются к ИТ-ландшафту при внедрении систем машинного обучения и искусственного интеллекта? Можно ли использовать облачные решения для развертывания подобных систем?

Евгений Колесников: Обычно инфраструктурная платформа для машинного обучения и работы с Big Data создается как надстройка над существующим ИТ-ландшафтом: устанавливается кластер любого вендора, основанный на Apache Hadoop, и в него загружаются данные из всех систем-источников.

Облачные платформы, позволяющие реализовать систему машинного обучения, тоже используются, в том числе у наших заказчиков – это облачные хранилища, облачные серверы. Есть компании, которые предоставляют из облака готовые инструменты машинного обучения, например, серверы и фреймворк Microsoft Azure, специализированные серверы Amazon и другие.

CNews: Какие факторы влияют на эволюцию решения, развитие его функционала? Бывали ли случаи, когда в процессе разработки либо эксплуатации выявлялась новая точка приложения разрабатываемого продукта?

Евгений Колесников: Решение всегда разрабатывается под задачи, которые есть у реальных клиентов. Заказчик – главный и ключевой драйвер, именно его требования определяют направления развития решения. Конечно, есть наша внутренняя экспертиза, которую мы используем для создания наилучшей архитектуры, но набор функционала идет от бизнес-заказчика.

Поскольку мы разрабатываем платформу, то выявление новых точек приложения – основной бизнес-сценарий ее эволюции. Платформа должна показывать себя в разных областях. Сейчас она применяется для противодействия мошенничеству и отмыванию доходов, контроля бизнес-процессов, контроля рисков. Новые области приложения, несомненно, будут появляться – это может быть компьютерное зрение, компьютерный слух, компьютерное чтение и многое другое.

Вернуться на главную страницу обзора