Спецпроекты

На страницу обзора
Как эффективно вести проект по работе с данными
Как действовать менеджеру, если компания решила привлечь внешнего подрядчика, чтобы наладить работу с данными, в том числе большими? Можно ориентироваться на «дорожную карту», которая подготовлена, исходя из опыта ряда проектов по внедрению систем для анализа данных.

Многие руководители хотят начать с общего понимания того, что такое данные, какие именно данные накапливает компания, что в них может быть полезного, с чего начитать работу с ними, – и заказывают data-консалтинг. В его рамках подрядчик проводит первичный анализ и дает заключение, сколько «полезности» скрыто в информации, накопленной компанией, как ее извлечь и какие задачи с ее помощью можно решить.

Следующий шаг – это заключение договора на анализ данных, результатом которого является решение сформулированных для клиента задач (на основе потенциала его данных). Безусловно, ряд компаний пропускает первый шаг, так как с самого начала имеет четкое представление о данных и о задачах. К сожалению, иногда прямо в процессе реализации проекта приходится возвращаться в самое начало, потому как компании не хватило ресурсов на проведение грамотной оценки data-потенциала.

Обычно компании заказывают кастомные алгоритмы, которые обрабатывают данные и дают на выходе решение конкретных бизнес-задач (от принятия решения о выдаче кредита до оптимизации раскладки товаров на полке). Здесь важно учитывать следующий нюанс. Существует разница между пользовательским интерфейсом и алгоритмом, который лежит в его основе (алгоритм – логика принятия решения, имплементированная в программный код). Интерфейс – это удобная пользовательская панель, где можно поставить «галочки», выбирая нужные параметры (например, для осуществления рассылки только по определенным группам клиентов), а алгоритм – это то, что способно этих клиентов правильно распределить по группам. Заказывая проект по датамайнингу, менеджер получает именно алгоритм, интерфейс к нему можно прикрутить любой (силами ИТ-специалистов в самой компании или же заказать как дополнительную услугу у разработчика алгоритма).

Александр Парфенов, президент компании «Ангиоскан-Электроникс»:

Перед тем как объяснить, почему мы обратились к внешней команде «АлгоМост» по анализу данных, опишу кратко принцип работы наших приборов (пульсометров). Это важно для понимания задачи, которую мы ставили. Компания разрабатывает и продает приборы для анализа показателей сердечно-сосудистой системы, таких как биологический возраст сосудов, степень жесткости артерий, частота пульса, индекс сатурации (насыщение гемоглобина кислородом). Приборы эти предназначены для конечных пользователей. С помощью устройств осуществляется диагностика и оценивается риск возникновения сердечно-сосудистых заболеваний за несколько лет до появления клинических симптомов (известно, что симптомы атеросклероза сосудов начинают появляться за много лет до появления заболеваний).

Прибор просвечивает с помощью светодиода палец руки и измеряет степень поглощения света датчиком с противоположной стороны пальца. Полученный таким образом сигнал называется фотоплетизмограммой (photoplethysmogram, PPG). Однако полученный в ходе работы одного из наших приборов – пульсометра – сигнал часто бывает зашумлен: оказывалось, что результаты обследования одного и того же человека могут сильно варьироваться, даже если человек все это время находился в состоянии покоя, то есть не занимался активными физическими упражнениями, не употреблял алкоголь и так далее.

На основании результатов тестирования прибора была сформулирована некоторая гипотеза, которую мы хотели подтвердить. Помимо этого нам хотелось выявить новые подходы и обосновать не до конца очевидную, но прогностически важную информацию, полученную в ходе использования наших диагностических комплексов. Мы понимали, что для эффективного результата нам необходимо привлечь специалистов по анализу данных, которые смогут разработать алгоритм, позволяющий предоставить конечному пользователю нашего прибора более точную трактовку показателей состояния сосудов.

Сформулируйте KPI

В договоре, заключенном с подрядчиком на обработку данных, фиксируются только технические KPI. Менеджеру проекта – какое бы подразделение компании-заказчика он ни представлял – необходимо четко сформулировать бизнес-показатели, напрямую связанные с эффективностью будущего алгоритма, который будет внедрен по результатам работы. Это может быть число невозвратных кредитов, оборачиваемость товарных запасов, количество заказов в интернет-магазине, а также отклик по маркетинговой кампании, инвестиционная привлекательность или же скорость ответа оператора колл-центра. То есть менеджеру следует исходить не из посыла «давайте работать с данными, ведь все это делают», а формировать собственное представление о том, что эта работа принесет бизнесу в итоге – в понятных для него величинах.

Как «АнгиоСкан» формулировал задачу

Основной задачей было построение алгоритма, который смог бы выявлять более точные показатели, минимизировать «шум» – воздействие внешних факторов, влияющих на параметры (артериальное давление, частота сердечных сокращений, циркадная динамика, эмоциональное состояние).

Согласование KPI было одним из важнейших этапов совместной работы. Мы хотели, чтобы исполнителем были доказаны гипотезы, подтверждающие скрытые взаимосвязи между данными с нашего прибора. Как в последствии и вышло: было доказано, что вариабельность, то есть изменяемость, нестабильность в течение времени снимаемых прибором показателей (биологический возраст, уровень стресса) не является дефектом самого прибора или же следствием неверной методологии расчета показателей. Она обусловлена самими физиологическими особенностями организма человека. Природа сделала сигнал сердечнососудистого ритма нестабильным. Точнее, у 30% людей параметры постоянны, а у 70% наблюдается динамика. Дело в том, что у большинства людей сигнал состоит из волн не одного типа, а нескольких. Было ошибкой в течение долгого времени полагать, что тип волны всего один.

Самит Яковлев, основатель и управляющий партнер Inventum Group:

Мы занимаемся алгоритмической торговлей на фондовых рынках и всегда осознавали силу работы с большими данными. Мы привлекали внешнюю команду по датамайнингу для повышения качества алгоритмов стратегий оценки и фондов. В результате модель, которую мы получили, превосходит традиционные показатели эффективности инвестиционного портфеля (коэффициент Шарпа, например), так как учитывает гораздо больше типов данных.

Мы использовали полученный алгоритм (модель оценки) для анализа собственных стратегий и анализа фондов ПИФов, доступных на рынке. Стратегии, которые отбираются c помощью разработанного алгоритма, на будущих периодах показывают результаты в среднем на 24% выше, чем стратегии, отобранные по общепринятым методикам.

Была и вторая задача, которая носила экспериментальный характер. Мы хотели прогнозировать возможные слияния и поглощения различных компаний. Созданный алгоритм учитывал большой массив различных данных, например основные финансовые показатели поглощенных компаний за более чем 20-летний период. Это позволяет нам прогнозировать M&A-операций, что увеличивает эффективность ведения клиентских портфелей.

Нужно убедить коллег в перспективности и рентабельности проекта

Исходит ли инициатива реализации проекта по анализу данных от владельца бизнеса или же это было начинание подчиненного – необходимо заручиться поддержкой коллег, которые будут помогать во время проекта и на работе которых отразится эффект от его внедрения. Во-первых, надо объяснить коллегам, что внедрение нового решения не отнимет у них работу, а трудозатраты на проект помогут ей стать проще и эффективнее. Во-вторых, полезно отразить комплексное влияние алгоритма на весь процесс жизнедеятельности компании. Например, оборачиваемость товаров ритейловой сети вырастет в среднем на 14%, а издержки на логистику упадут на 9%. Подобное обоснование поможет в лоббировании проекта перед руководством, если его инициатива исходит от подчиненного.

Необходимо разобраться в собственных данных и воздержаться от необоснованных ожиданий

Начиная проект по анализу данных, важно четко идентифицировать и понимать все вводные: какие данные будут подвергнуты анализу, процесс их выгрузки и передачи на обработку, необходимый уровень support от технического отдела и т.д. Для банков, страховых и прочих компаний, тесно связанных с персональными данными, необходима 100% уверенность в подрядчике и контроль своих сотрудников, которые будут передавать ему информацию.

Менеджерам стоит воздержаться от необоснованных ожиданий относительно того, что может сделать аналитика для их компании. В некоторых случаях данных просто недостаточно для анализа (значит, надо составить план по их грамотному сбору и отвести на это определенное количество времени, которое позволит сформировать историческую выборку). Обычно это диагностируется на этапе проведения data-консалтинга. Иногда данные настолько не систематизированы и разрознены (например, у страховой компании есть целых три базы клиентов, где записи ведутся в разных шаблонах и дублируются), что требуется их предобработка. Только после нее возможно приступить к анализу. В идеале любому датамайнинг-проекту должен предшествовать консалтинг в области данных, который вычленит и нивелирует данные проблемы. Александр Парфенов добавляет: «Вопрос передачи данных был одним из самых «тонких» в процессе работы, но мы понимали, что без передачи данных проект реализовать не получится. Кроме того, привлечение внешнего подрядчика по анализу данных может помочь не только в решении задач, но и в формировании новых, которые можно решить с учетом имеющихся данных».

Как решить вопрос привлечения внешних данных

Зачастую компании хотят подвергнуть анализу не только накопленные у них данные, но и привлечь внешние источники. Менеджеры уверены, что последние обогатят их полезными знаниями. Обычно самое эффективное – работать с данными социальных сетей классических способом, привлекая аналитику «с человеческим лицом», то есть используя имеющийся в компании штат аналитиков. Датамайнинг лучше всего работает на данных самой компании – потому что только они отражают ее менталитет.

Планирование и расчет

Чтобы ответить на вопросы, сколько времени займет проект и когда будет виден эффект от его внедрения, необходимо понимать, какие стадии и итерации в него входят. Классическая схема включает в себя: подписание договора, составление технического задания, заключение дополнительных соглашений (например, NDA); сбор, выгрузку и предобработку; анализ данных и разработку алгоритма (длительность этого периода может варьироваться от нескольких месяцев до года); тестирование алгоритма; внедрение алгоритма; эволюционное развитие алгоритма, подключение потоковых данных и т.д. (эта стадия, как правило, выделяется в отдельный проект).

Особое внимание стоит обратить на предобработку данных, о которой уже говорилось выше. Бывают проекты, в которых она занимает до 50% времени работ, в среднем же она составляет 25–30%. Момент наступления эффекта от внедрения алгоритма зависит от сути самого проекта, той задачи, которую алгоритм призван решать. Обычно алгоритму дается около полугода, чтобы оценить его работу, далее ставится вопрос о его эволюционном развитии.

Не останавливаться

Цифровая трансформация бизнеса – это комплексный процесс, затрагивающий все стороны работы компании. Начав с первого проекта по обработке данных, важно продолжать работы в этом направление. Со временем у компании появляются новые данные, подключив которые к работе алгоритма можно получить более свежие и действенные рычаги развития. Обогащение алгоритма актуальными новостями рынка помогает держать руку «на пульсе» бизнеса.

Александр Парфенов о планах развития продукта:

По итогам успешных результатов наших кампаний мы планируем дальнейшую оптимизацию диагностики и пользовательского интерфейса прибора. Мы хотим сделать его показания максимально понятными для неподготовленного пользователя, который приобретает прибор для частных измерений. В проекте – разработка интегрального параметра (включающего в себя все показания прибора) для измерения состояния организма в баллах. Он должен стать максимально простым для понимания пользователя пульсометра.

Михаил Левиев

Интервью обзора

Рейтинги

Крупнейшие поставщики BI-решений в России 2015
Название Выручка по направлению BI, 2014,iтыс. (с НДС)
1 Прогноз* 4 013 481
2 AT Consulting 1 428 698
3 Softline 1 297 839
Подробнее

Рейтинги

Инновационная аналитика: проекты в России и мире
Заказчик Описание проекта
Зарубежные/международные проекты
Beth Israel Deaconess Medical Center Суперкомпьютер, построенный в медицинском центре Beth Israel Deaconess Medical Center в Бостоне, США, способен предсказывать дату смерти пациентов на основе медицинских данных с вероятностью 96%. Система хранит данные о 250 тыс. бывших и нынешних пациентах за 30 лет и фиксирует параметры жизнедеятельности пациентов в палатах с частотой раз в три минуты, записывая множество параметров — от давления крови до уровня кислорода. Основываясь на данных о пациентах, системаспособна выявлять редкие заболевания, которые обычный доктор может не увидеть или обнаружить не так быстро, как это способен сделать суперкомпьютер.
CERN CERN и Yandex Data Factory объявили открытый конкурс Flavour of Physics («Аромат физики») по машинному обучению. Участникам предлагается разработать алгоритм, который позволит отделить «сигнал» о специфическом распаде тау-лептона от «фона». Алгоритм поможет ученым обнаружить в данных Большого Адронного Коллайдера следы распада тау-лептона на три мюона τ- → μ+μ-μ- . Этот распад, нарушающий сохранение важного параметра элементарной частицы, лептонного аромата, станет указанием на свойства новой физики за рамками Стандартной Модели, поиском которой заняты ученые со всего мира. Задача участников конкурса — создать классификатор, программу, которая разделит события коллайдера на содержащие необходимый распад тау и не содержащие.
Подробнее

Рейтинги

Крупнейшие российские проекты внедрения BI-систем, 2014-2015 гг.
Заказчик ИТ-партнер / Решение
3M Company Прогноз/Прогноз
AirBridgeCargo BI Partner/Pentaho
DPD (экспресс-доставка) Корус Консалтинг/Oracle Business Intelligence 11
Подробнее