Сергей Мацоцкий: Успех с большими данными — за пределами вашей зоны комфорта
Технологии больших данных могут принести свои плоды не только высокотехнологичным компаниям, но и представителям традиционных индустрий. Совсем скоро большие данные станут неотъемлемой частью любого бизнеса в России, убежден председатель правления IBS Сергей Мацоцкий. Польза, которую они могут принести, очевидна, а внедрение — необходимо, даже если компаниям для этого придется покинуть свою зону комфорта.
30.03.2015


Когда говорят «большие данные», обычно имеют в виду новые формы анализа данных, но важно понимать, что в действительности за этим понятием стоят глубокие изменения самих принципов построения ИТ-систем. Они касаются и вычислительной инфраструктуры, которая приспосабливается к новым объемам и информационным потокам. Возникают новые архитектурные решения для корпоративных ИТ, появляются огромные универсальные хранилища данных, которые позволяют просто и быстро выполнять интеграцию между различными приложениями на уровне данных. И, конечно, возникает возможность анализа информации новыми средствами – то, что мы называем «аналитика больших данных». Но в целом мы в IBS предпочитаем говорить не просто о «больших данных», а о дата-центричном подходе в построении корпоративных ИТ.
Сегодня вопрос о том, приживется ли подход data-driven, по большому счету, не стоит: эволюция происходит на наших глазах. Вопрос в том, насколько это будет быстро и насколько конкретная компания научится эффективно его применять.
Я на сто процентов уверен, что несмотря на то, что инженерия корпоративных данных — это зона ответственности, скорее, ИТ-специалистов, но основными инициаторами использования подхода data-driven должны быть именно те, кто отвечает за функционал, — бизнес-лидеры. Просто пока они еще не вполне понимают, какие широкие возможности открывают для них технологии. В результате их требования заключаются либо в том, чтобы сделать старые отчеты более красивыми, либо «сделайте, чтобы можно было вести любой анализ, быстро, надежно и дешево», а это тоже невозможно. Возвращаясь к вопросу о том, приживется ли data-driven, скажу так: у успешных компаний приживется, а у неуспешных — не успеет, они разорятся до этого.
Если хватает функционала BI, значит, компания находится в своей зоне комфорта. Но это не будет продолжаться вечно. И, может быть, кризис послужит толчком к тому, чтобы начать что-то менять. Посмотрите: экономить сейчас вынуждены даже те, кто 2-3 года назад чувствовал себя совершенно стабильно и уверенно.
Получить проблемы — это самое лучшая мотивация. Или увидеть конкурента, который тебя догоняет, почувствовать, что тебе дышат в спину. Конкуренция — двигатель любого прогресса. Те, кто стремится улучшить что-то: свою экономику, качество изделий, уровень сервиса, — будут думать, как использовать все что угодно, в том числе и парадигму больших данных.


Я думаю, что, прежде всего, это все, что связано c В2С-сегментом. Во-первых, потому что именно потребительский сегмент производит колоссальное количество данных, во-вторых, в простых житейских проблемах люди быстрее всего готовы ориентироваться на приблизительные, не точные решения, которые предлагают «большие данные».
Есть огромное количество вещей, которые мы каждый день используем и не задумываемся, как это устроено: например, поисковые алгоритмы в «Яндексе» или Google, навигаторы в картах, электронные магазины, которые дают рекомендации, скоринговые системы, которые оценивают кредитные риски в банках.
Есть индустрии, которые целиком изменили свою модель с приходом технологий больших данных. Это, скажем, автоматизированные системы перевода, которые отказываются от сложных лингвистических алгоритмов в пользу перевода фраз целиком с помощью статистической модели.
Или, например, посмотрите на рынок такси. С появлением интернет-посредников, таких как «Яндекс-такси», Uber, Get Taxi, бизнес-модель принципиально изменилась. Это не просто диспетчер, который ищет заказы, там работает целая модель взаимодействия, с рейтингованием, маршрутами, отслеживанием качества, прогнозированием — огромная мешанина данных. В этой мешанине точно невозможно работать с классическими транзакционными моделями: эта задача требует эмпирической модели. Те, кто научится работать с данными эффективно, выживут, а те, кто не научится, скорее всего, просто уйдут с рынка. Похожая ситуация складывается с бронированием отелей. Смотрю на Booking.com и на наш «Островок»: окажется ли его технология более эффективной? В этой отрасли конкурентные цены и почти нет резерва маржинальности, чтобы играть в демпинг. Это означает, что идет абсолютно честная конкуренция в области сервиса, основанного на обработке данных. Работа с данными для таких компаний — часть основной бизнес-технологии.
Я вижу, что в некоторых индустриях рост применения больших данных неизбежен. И даже в очень традиционных индустриях возникают процессы, которые можно существенно улучшить с применением новых технологий.
Могу привести хороший пример: скажем, в энергетике есть потребность во взвешенном планировании ремонта оборудования. Для крупных сетевых компаний это большая проблема. Ремонтно-восстановительные работы составляют существенную долю операционных затрат. Традиционно в этой индустрии ремонт идет по наработке: допустим, одну деталь нужно менять раз в шесть месяцев, а другую — раз в два года. Регламенты такого ремонта всегда составлены с приличным запасом по износостойкости. Однако они не могут учесть все реальные условия, в которых работает оборудование. Есть и другой подход: ремонт по текущему состоянию, когда ты смотришь на износ деталей и принимаешь решение, менять их или не менять. Это, с одной стороны, экономически эффективнее, поскольку агрегат в благоприятных условиях может проработать без ремонта дольше. Но это предполагает большую долю ответственности для тех, кто планирует эти ремонты.
Конечно, нужно самостоятельно точно оценивать риски, брать на себя ответственность. При современном распространении датчиков, электронных контроллеров и так далее, компьютерная аналитика позволила бы рассчитывать надежность оборудования более точно, чем это было много лет назад, когда разрабатывались регламенты планово-предупредительных ремонтов.
Конечно, проще всего исполнять регламент, спущенный сверху. Но в энергетике, где это возможно, с ее трансформаторами, с подстанциями, с линиями электропередач переход на ремонты по состоянию может дать колоссальный эффект. Об этом говорили еще лет 15 назад, но до сих пор не реализовали. И большие данные как раз дают правильный инструмент решения этой задачи.
Наверное, одними из следующих к большим данным обратятся страховщики. В страховании риски — это база для расчета страховой ставки. И чем больше ты можешь факторов принять во внимание при расчете, тем больше ты можешь выиграть. Пока наше страхование идет по немножко «жлобскому» пути: раз у них убытки, они поднимают ставки всем. Индивидуальные ставки никто особенно не считает. И для многих людей ставки стали запретительными. Страховщикам, на мой взгляд, нужно перейти к другому качеству расчета страховых рисков. В мире это достаточно активно применяется.


Взрыв технологий больших данных мы сейчас наблюдаем в управлении персоналом. На западе появляется огромное количество стартапов в этой области: решения позволяют проводить тестирование, автоматизированные собеседования, выявлять способности, потенциал людей, склонности к той или иной работе людей, использовать все это при массовом найме.
Вторая огромная область в HR — это все, что связано с оценкой продуктивности персонала. Еще несколько лет назад лучшей практикой считалась, допустим, модель дерева KPI, когда цели компании декомпозируются на сотрудников и актуализируются раз в год. Сегодня уже совершенно очевидно, что все это каменный век. Сегодня технология позволяет использовать микс самых разных производственных данных из систем, с датчиков, из интернета, персональных данных, чтобы выявлять наиболее производительных сотрудников и привязывать к этой модели мотивационную схему. Мы как большой HR-внедренец с большим интересом смотрим на все эти технологии.
Отдельная большая тема — это все, что связано с безопасностью, особенно с противодействием терроризму. В мире эта сфера является колоссальным драйвером роста для технологий обработки разнородных данных из различных источников, неструктурированной информации – видео, звука, текстов.
Я думаю, ровно так же, как от внедрения любых других инноваций. Где-то это сделать легко, где-то очень сложно.
Например, в случае с кредитными рисками довольно легко. Вы внедрили механизм, и процент невозврата уменьшился — вот и ваш бенефит от внедрения. А вот как, например, посчитать эффект от того, что раньше переводчик сидел и переводил со словарем, а теперь с Google Translator? Я думаю, что в данном случае большие данные не отличаются ничем от любых других технологий. Как померить эффективность лифта в многоэтажном доме? Можно, наверное, придумать какую-то очень сложную модель. Но в реальности для нас лифт — это стандарт, так что мы даже не задумываемся о том, что надо считать эту эффективность. Так же и некоторые технологии становятся просто частью жизни, а не вопросом экономической целесообразности.
Могу повторить свой ответ на похожий вопрос, который я сформулировал очень давно. В конце 90-х или начале 2000-х меня спросили, когда есть смысл задумываться о создании BI-системы. Я подумал и ответил, что тогда, когда цена управленческого решения соразмерима со стоимостью внедрения BI-системы. Абсолютно то же самое я могу повторить сейчас о больших данных: когда цена решения находится хотя бы в тех же порядках, что и цена внедрения системы, тогда имеет смысл рассматривать возможность такого внедрения.
Препятствий много. Это довольно молодая технология, и в ней нет еще ни технической, ни организационной зрелости. Технической зрелости нет, прежде всего, потому что слишком маленький срок прошел от появления продукта. Большие данные — очень молодая индустрия, где еще не сложились лучшие практики.
Но самая большая проблема и самый большой вызов, конечно, связан с методологией и с людьми, которые умеют эту методологию применять. Для людей это отказ от классического дедуктивного мышления в пользу эмпирического, опытного мышления и использования статистики в качестве основы для реального бизнеса. Это все-таки не совсем типично для нас: нам хочется сначала объяснить тренд или закономерность, а потом их массово применять. А в этой индустрии нужно, чтобы люди могли мыслить эмпирически, и при этом прекрасно владели математическим аппаратом. И вот сочетание этих двух характеристик встречается редко.
Сергей Мацоцкий:

Это очень непростой вопрос. Мы приходим к тому, что, с одной стороны, здесь требуется сочетание взаимоисключающих ментальных факторов: интуиции, широкого кругозора и «математичности» в мозгах и образовании. Таких людей не готовят в институтах. Конечно, это пока штучный «товар», который мы стараемся готовить сами внутри компании, на опыте реальных проектов и мировом учебном материале. В том числе мы спонсировали перевод ряда курсов про большие данные на Coursera, и мы надеемся, что таким образом еще немало людей сможет получить образование в этой сфере. Но это будет происходить не мгновенно. Я думаю, дефицит таких специалистов пока что будет только нарастать.
Ровно с теми же детскими болезнями: проблемами с поиском кадров, незрелостью технологий — общим методом проб и ошибок, как и во многих странах, у многих компаний, которые этим занимаются. Но уже есть команда, есть пилотные проекты, есть интерес клиентов, и это очень увлекательно и необычно. Иногда просто захватывает дух от тех возможностей, которые открываются!
Да, и даже активно этим занимается. Мы разработали целую методологию для наших клиентов: с чего начинать и как строить дорожные карты планомерного снижения зависимости от импортных технологий.


Мне кажется, что главная проблема импортозамещения у нас в том, что его часто понимают очень вульгарно. Принято считать, что импортозамещение — это «мы построим все свое от первого до последнего винтика»: свою операционную систему, свою базу данных, свои чипы и т.д. Я, честно говоря, противник такого подхода. Во-первых, потому что все-таки Россия не такой большой рынок, чтобы можно было перейти на натуральное хозяйство. Во-вторых, мне кажется, прежде всего, нужно заняться тем, что создает реальные риски. Понимаете, мы можем начать выпускать аналог чипа X86. Но эти чипы продаются по всему миру и никуда не исчезнут, санкции на них распространить нельзя. Чего мы тогда беспокоимся? Я плохо себе представляю, допустим, зачем нам надо разрабатывать свой iPhone. Есть по-настоящему критические для государства технологии, и при этом они уникальные и закупаются за рубежом — вот это действительно риск, потому что отключить поставки уникальной технологии очень просто.
Мне кажется, что вопрос импортозамещения надо перевести в практическую плоскость. Каждому крупному заказчику нужно понять, где сосредоточены самые большие риски и каков быстрый, надежный и недорогой путь от этих рисков избавиться. Мы для своих заказчиков разработали методику такой оценки и предлагаем интеграционные решения, построенные на базе отечественных компонентов. В таком практическом ключе, как мне кажется, и нужно решать эту проблему.