Интервью

Data scientist: Данные не врут

data
мобильная версия

Сегодня аналитик по данным (data scientist) – самая популярная профессия в мире высоких технологий. И самая загадочная: разобраться с тем, зачем компании собственный «специалист по данным» подчас бывает очень непросто. О задачах этой профессии, машинном обучении и секретах, которые скрывают в себе данные, в интервью CNews рассказала Анна Румянцева, аналитик по данным компании Hitachi Vantara.

CNews: Многие люди до сих пор в точности не понимают, что входит в сферу полномочий аналитика по данным. Расскажите о том, чем вы занимаетесь в компании Hitachi Vantara.

Анна Румянцева: Аналитик по данным – довольно разноплановая профессия. Спектр обязанностей у специалистов с одинаковыми навыками, но работающих в разных компаниях, может сильно отличаться. В целом же – это человек с хорошим знанием математики и машинного обучения, который к тому же имеет опыт работы с данными: умеет анализировать их, искать интересные паттерны и выстраивать на их основе модели, которые могут быть использованы в повседневных бизнес-операциях. У таких специалистов весьма широкий круг задач, однако в одной компании аналитик по данным будет больше инженером данных, в другой – больше аналитиком.

В Hitachi Vantara я работаю с заказчиками, которые хотят применять методы машинного обучения и аналитики, используя нашу платформу. Моя задача – встречаться с ними, изучать, как устроен их бизнес, искать пути для применения аналитики, предлагать им наиболее эффективные сценарии ее использования и объяснять, как построить ту или иную архитектуру данных.

CNews: На рынке существует масса мифов о том, кто такие аналитики по данным. Один из них гласит, что это подобие шаманов, способных из «больших данных добывать нефть». Какими навыками в действительности должен обладать специалист вашей профессии?

Анна Румянцева: Он должен быть не только хорошим математиком и аналитиком – важно уметь общаться с людьми и вникать в самые тонкие особенности бизнеса: интересоваться задачами компаний-заказчиков, их метриками. В каком-то плане наша работа соотносится со сферой консалтинга. Это очень важно, потому что многие предприятия сегодня подходят к работе с данными неправильно: они накапливают петабайты информации и направляют ее в исследования, никак не связанные с повседневной деятельностью их бизнеса. Чтобы помочь заказчику выбрать правильный курс, аналитик по данным должен понимать, как устроена та или иная компания – так же и все его задачи должны быть связаны с бизнес-проблемами и бизнес-результатами.

CNews: Как вам удается обнаружить закономерности в данных?

Анна Румянцева: Для этого существует ряд довольно стандартных техник. В первую очередь, я разбираюсь, с какими источниками данных имею дело и с тем, как они относятся к проблеме, которую пытаюсь решить. Затем я пытаюсь эти данные привести в одно место, грубо говоря, свести их в одну таблицу. После этого делаю предварительные расчеты и графики и смотрю, есть ли в данных какие-либо интересные закономерности, которые можно развить дальше и построить на их основе модель машинного обучения или применить другие методы анализа.

CNews: Чем аналитик по данным отличается от, к примеру, BI-аналитика или специалиста data mining?

Анна Румянцева: На самом деле, специалист data mining и аналитик по данным – очень схожие профессии. Мне кажется, data mining – в некотором смысле устаревший термин: эта сфера деятельности существует уже довольно долго. Бизнес-аналитика и наука о данных (data science) отличаются, прежде всего, тем набором техник, которыми владеют специалисты в этих областях. Аналитик по данным обязан владеть более широким спектром применения математических методов. Мы не только «осмысляем» данные, но и используем машинное обучение, глубокое обучение (deep learning) и методы математической оптимизации – то есть строим гораздо более сложные аналитические модели. Поэтому в нашу профессию часто идут люди с кандидатской степенью по математике, физике или другим точным наукам.

CNews: Адепты изучения больших данных утверждают, что составление прогностических моделей может принести компании куда больше прибыли и новых клиентов, чем любые изобретения маркетинга. Как в реальности данные превращаются в бизнес-модель?

Анна Румянцева: Я бы не сказала, что большие данные заменяют маркетинг: оба направления очень важны для развития компании. Это подход с разных сторон, и потому дата-аналитика должна существовать рядом с инновациями в маркетинге – не нужно выбирать одно вместо другого. Что касается применения анализа данных, результаты, которые он приносит, очень впечатляют бизнес. В практике нашей компании есть ряд подобных кейсов: к примеру, история успешного сотрудничества с компанией Caterpillar Marine – крупнейшего производителя судовых дизельных двигателей. Они наблюдают за эффективностью расхода топлива и обслуживанием производственного оборудования на своих кораблях. Сотрудничая с Hitachi Vantara, специалисты Caterpillar Marine стали собирать данные с сенсоров, установленных на судах, измерять температуру, потребление топлива и другие показатели. Это были очень большие потоки данных, и у компании ушло немало времени, чтобы выстроить систему их сбора, анализа и визуализации. Но результаты этого проекта были внушительными: сейчас Caterpillar Marine может сохранять порядка $750 тыс. в год для одного корабля – в мире анализа больших данных это значительные деньги и огромный результат.

Анна Румянцева: Данные не врут, однако их нужно грамотно структурировать и при построении моделей машинного обучения концентрировать свое внимание на том, что действительно важно

Другой пример – проект Hitachi Rail Europe, в рамках которого мы принимаем участие в модернизации железных дорог Великобритании. Hitachi Rail Europe использует данные сенсоров, так называемые IoT-data (данные интернета вещей), чтобы предотвращать поломку поездов. Обработка данных происходит непосредственно в тот момент, когда поезда курсируют между городами Великобритании. Анализируя эти данные, операторы могут предсказать поломку поезда, оперативно зафиксировать любые неполадки, не выводя при этом поезда из эксплуатации и не мешая перевозке пассажиров. В будущем это позволит компании экономить до £20 млн в год. Да, это занимает время. Да, это нелегко. Да, для этого необходимо подключать специалистов разного класса. Но конечные результаты все же впечатляют.

CNews: Как можно предсказать, к примеру, активность покупателей розничного магазина, и как этот прогноз можно использовать?

Анна Румянцева: Методы машинного обучения действительно очень активно применяются в ритейл-индустрии. Анализ данных в этой сфере, например, часто используют для сегментации покупателей: то есть их распределяют в определенные группы на основе каких-либо характеристик или паттернов. Иными словами, когда у магазина появляется новый клиент, аналитики оценивают, в какую группу он попадет и что скорее всего будет покупать. Эти данные превращаются в то, что называют «таргетинговый маркетинг». Также можно прогнозировать спрос на определенные продукты, используя, например, нейросетевое прогнозирование временных рядов.

CNews: Более-менее понятно, как бизнес может использовать данные. Но как аналитика данных может быть использована для создания «умного города» и улучшения качества работы врачей, полицейских, коммунальных служб, экологов?

Анна Румянцева: «Умный город» имеет очень много направлений, в которых может использоваться аналитика. Во-первых, это транспорт: данные можно применять для оптимизации дорожного движения, организации общественного транспорта, борьбы с пробками. Также машинное обучение начинают использовать в полиции: например, применяется аналитика «исторических данных» о том, в каком районе и когда происходили преступления, совпадали ли они с освобождением из тюрьмы криминальных элементов. С помощью таких данных полицейские могут предсказать высокую вероятность совершения преступления в определенное время в том или ином месте и перераспределить патрули в опасные районы. Кроме того, в «умном городе» аналитику можно использовать для оптимизации электроэнергии и, что особенно важно для мегаполисов, для контроля уровня СО2 в воздухе. Некоторые городские компании имеют определенную квоту на выброс углекислого газа: предсказания этих выбросов необходимы для поддержания СО2 и других газов в атмосфере на безопасном для человека уровне. Таким образом, можно выявлять паттерны, которые связаны с повышенным уровнем загрязнения воздуха в городе и применять соотвествующие меры.

CNews: Сейчас много говорят об аналитике, управляемой данными. Могут ли данные ошибиться? Какие советы вы могли бы дать, чтобы избежать этих ошибок?

Анна Румянцева: Да, иногда данные могут ошибаться. Но причина кроется не в «ложных» сведениях, а в том, что они не были определенным образом подготовлены к аналитике. Ошибки также возникают с тем, что называется dirty data («грязные данные») – это отсутствующие, неточные или бесполезные данные с точки зрения их практического применения (например, представленные в неверном формате). Такие данные могут сильно исказить реальную картину при построении моделей. Я бы сказала, что данные не врут, однако их нужно грамотно структурировать и при построении моделей машинного обучения концентрировать свое внимание на том, что действительно важно.