Спецпроекты

На страницу обзора
Как эффективно вести проект по работе с данными
Как действовать менеджеру, если компания решила привлечь внешнего подрядчика, чтобы наладить работу с данными, в том числе большими? Можно ориентироваться на «дорожную карту», которая подготовлена, исходя из опыта ряда проектов по внедрению систем для анализа данных.

Многие руководители хотят начать с общего понимания того, что такое данные,какие именно данные накапливает компания, что в них может быть полезного, с чегоначитать работу с ними, – и заказывают data-консалтинг. В его рамках подрядчик проводит первичный анализ и даетзаключение, сколько «полезности» скрыто в информации, накопленной компанией,как ее извлечь и какие задачи с ее помощью можно решить.

Следующий шаг – это заключение договора на анализ данных, результатомкоторого является решение сформулированных для клиента задач (на основепотенциала его данных). Безусловно, ряд компаний пропускает первый шаг, так какс самого начала имеет четкое представление о данных и о задачах. К сожалению,иногда прямо в процессе реализации проекта приходится возвращаться в самоеначало, потому как компании не хватило ресурсов на проведение грамотнойоценки data-потенциала.

Обычно компании заказывают кастомные алгоритмы, которые обрабатывают данныеи дают на выходе решение конкретных бизнес-задач (от принятия решения о выдачекредита до оптимизации раскладки товаров на полке). Здесь важно учитыватьследующий нюанс. Существует разница между пользовательским интерфейсом иалгоритмом, который лежит в его основе (алгоритм – логика принятия решения,имплементированная в программный код). Интерфейс – это удобная пользовательскаяпанель, где можно поставить «галочки», выбирая нужные параметры (например, дляосуществления рассылки только по определенным группам клиентов), а алгоритм –это то, что способно этих клиентов правильно распределить по группам. Заказываяпроект по датамайнингу, менеджер получает именно алгоритм, интерфейс к нему можноприкрутить любой (силами ИТ-специалистов в самой компании или же заказать какдополнительную услугу у разработчика алгоритма).

Александр Парфенов, президент компании «Ангиоскан-Электроникс»:

Перед тем как объяснить, почему мыобратились к внешней команде «АлгоМост» по анализу данных, опишу кратко принцип работынаших приборов (пульсометров). Это важно для понимания задачи, которую мыставили. Компания разрабатывает и продает приборы для анализа показателейсердечно-сосудистой системы, таких как биологический возраст сосудов, степеньжесткости артерий, частота пульса, индекс сатурации (насыщение гемоглобинакислородом). Приборы эти предназначены для конечных пользователей. С помощью устройствосуществляется диагностика и оценивается риск возникновения сердечно-сосудистыхзаболеваний за несколько лет до появления клинических симптомов (известно, чтосимптомы атеросклероза сосудов начинают появляться за много лет допоявления заболеваний).

Прибор просвечивает с помощью светодиода палец руки и измеряет степень поглощениясвета датчиком с противоположной стороны пальца. Полученный таким образомсигнал называется фотоплетизмограммой (photoplethysmogram, PPG). Однакополученный в ходе работы одного из наших приборов – пульсометра – сигнал частобывает зашумлен: оказывалось, что результаты обследования одного и того жечеловека могут сильно варьироваться, даже если человек все это время находилсяв состоянии покоя, то есть не занимался активными физическими упражнениями, неупотреблял алкоголь и так далее.

На основании результатов тестирования прибора была сформулирована некоторая гипотеза, которую мы хотелиподтвердить. Помимо этого нам хотелось выявить новые подходы и обосновать не доконца очевидную, но прогностически важную информацию, полученную в ходеиспользования наших диагностических комплексов. Мы понимали, что дляэффективного результата нам необходимо привлечь специалистов по анализу данных,которые смогут разработать алгоритм, позволяющий предоставить конечномупользователю нашего прибора более точную трактовку показателей состояния сосудов.

Сформулируйте KPI

В договоре, заключенном с подрядчиком на обработку данных, фиксируютсятолько технические KPI. Менеджеру проекта –какое бы подразделение компании-заказчика он ни представлял – необходимо четкосформулировать бизнес-показатели, напрямую связанные с эффективностью будущегоалгоритма, который будет внедрен по результатам работы. Это может быть числоневозвратных кредитов, оборачиваемость товарных запасов, количество заказов в интернет-магазине,а также отклик по маркетинговой кампании, инвестиционная привлекательность илиже скорость ответа оператора колл-центра. То есть менеджеру следует исходить неиз посыла «давайте работать с данными, ведь все это делают», а формироватьсобственное представление о том, что эта работа принесет бизнесу в итоге – впонятных для него величинах.

Как «АнгиоСкан» формулировал задачу

Основной задачей былопостроение алгоритма, который смог бы выявлять более точные показатели,минимизировать «шум» – воздействие внешних факторов, влияющих на параметры(артериальное давление, частота сердечных сокращений, циркадная динамика,эмоциональное состояние).

Согласование KPI было одним изважнейших этапов совместной работы. Мы хотели, чтобы исполнителем были доказаныгипотезы, подтверждающие скрытые взаимосвязи между данными с нашего прибора.Как в последствии и вышло: было доказано, что вариабельность, то естьизменяемость, нестабильность в течение времени снимаемых прибором показателей(биологический возраст, уровень стресса) не является дефектом самого прибораили же следствием неверной методологии расчета показателей. Она обусловленасамими физиологическими особенностями организма человека. Природа сделаласигнал сердечнососудистого ритма нестабильным. Точнее, у 30% людей параметрыпостоянны, а у 70% наблюдается динамика. Дело в том, что у большинства людейсигнал состоит из волн не одного типа, а нескольких. Было ошибкой в течениедолгого времени полагать, что тип волны всего один.

Самит Яковлев, основатель и управляющий партнер Inventum Group:

Мы занимаемся алгоритмической торговлей на фондовых рынках и всегда осознавали силу работы сбольшими данными. Мы привлекали внешнюю команду по датамайнингу для повышениякачества алгоритмов стратегий оценки и фондов. В результате модель, которую мыполучили, превосходит традиционные показатели эффективности инвестиционногопортфеля (коэффициент Шарпа, например), так как учитывает гораздо больше типовданных.

Мы использовалиполученный алгоритм (модель оценки) для анализа собственных стратегий и анализафондов ПИФов, доступных на рынке. Стратегии, которые отбираются c помощьюразработанного алгоритма, на будущих периодах показывают результаты в среднемна 24% выше, чем стратегии, отобранные по общепринятым методикам.

Была и вторая задача,которая носила экспериментальный характер. Мы хотели прогнозировать возможныеслияния и поглощения различных компаний. Созданный алгоритм учитывал большой массивразличных данных, например основные финансовые показатели поглощенных компанийза более чем 20-летний период. Это позволяет нам прогнозироватьM&A-операций, что увеличивает эффективность ведения клиентских портфелей.

Нужно убедить коллег в перспективности и рентабельности проекта

Исходит ли инициатива реализации проекта по анализу данных от владельцабизнеса или же это было начинание подчиненного – необходимо заручитьсяподдержкой коллег, которые будут помогать во время проекта и на работе которыхотразится эффект от его внедрения. Во-первых, надо объяснить коллегам, чтовнедрение нового решения не отнимет у них работу, а трудозатраты на проектпомогут ей стать проще и эффективнее. Во-вторых, полезно отразить комплексноевлияние алгоритма на весь процесс жизнедеятельности компании. Например,оборачиваемость товаров ритейловой сети вырастет в среднем на 14%, а издержкина логистику упадут на 9%. Подобное обоснование поможет в лоббировании проектаперед руководством, если его инициатива исходит от подчиненного.

Необходимо разобраться в собственных данных и воздержаться от необоснованных ожиданий

Начиная проект по анализу данных, важно четко идентифицировать и пониматьвсе вводные: какие данные будут подвергнуты анализу, процесс их выгрузки ипередачи на обработку, необходимый уровень support от технического отдела ит.д. Для банков, страховых и прочих компаний, тесно связанных с персональнымиданными, необходима 100% уверенность в подрядчике и контроль своих сотрудников,которые будут передавать ему информацию.

Менеджерам стоит воздержаться от необоснованных ожиданий относительно того,что может сделать аналитика для их компании. В некоторых случаях данных простонедостаточно для анализа (значит, надо составить план по их грамотному сбору иотвести на это определенное количество времени, которое позволит сформироватьисторическую выборку). Обычно это диагностируется на этапе проведения data-консалтинга. Иногда данные настолько несистематизированы и разрознены (например, у страховой компании есть целых трибазы клиентов, где записи ведутся в разных шаблонах и дублируются), чтотребуется их предобработка. Только после нее возможно приступить к анализу. Видеале любому датамайнинг-проекту должен предшествовать консалтинг в областиданных, который вычленит и нивелирует данные проблемы. Александр Парфенов добавляет: «Вопрос передачи данных был одним изсамых «тонких» в процессе работы, но мы понимали, что без передачи данныхпроект реализовать не получится. Кроме того, привлечение внешнего подрядчика поанализу данных может помочь не только в решении задач, но и в формированииновых, которые можно решить с учетом имеющихся данных».

Как решить вопрос привлечения внешних данных

Зачастую компании хотят подвергнуть анализу не только накопленные у нихданные, но и привлечь внешние источники. Менеджеры уверены, что последниеобогатят их полезными знаниями. Обычно самое эффективное – работать с даннымисоциальных сетей классических способом, привлекая аналитику «с человеческимлицом», то есть используя имеющийся в компании штат аналитиков. Датамайнинглучше всего работает на данных самой компании – потому что только они отражаютее менталитет.

Планирование и расчет

Чтобы ответить на вопросы, сколько времени займет проект и когда будетвиден эффект от его внедрения, необходимо понимать, какие стадии и итерации внего входят. Классическая схема включает в себя: подписание договора,составление технического задания, заключение дополнительных соглашений(например, NDA); сбор, выгрузку и предобработку; анализ данных и разработкуалгоритма (длительность этого периода может варьироваться от нескольких месяцевдо года); тестирование алгоритма; внедрение алгоритма; эволюционное развитиеалгоритма, подключение потоковых данных и т.д. (эта стадия, как правило, выделяетсяв отдельный проект).

Особое внимание стоит обратить на предобработку данных, о которой ужеговорилось выше. Бывают проекты, в которых она занимает до 50% времени работ, всреднем же она составляет 25–30%. Момент наступления эффекта от внедренияалгоритма зависит от сути самого проекта, той задачи, которую алгоритм призванрешать. Обычно алгоритму дается около полугода, чтобы оценить его работу, далееставится вопрос о его эволюционном развитии.

Не останавливаться

Цифровая трансформация бизнеса – это комплексный процесс, затрагивающий всестороны работы компании. Начав с первого проекта по обработке данных, важнопродолжать работы в этом направление. Со временем у компании появляются новыеданные, подключив которые к работе алгоритма можно получить более свежие идейственные рычаги развития. Обогащение алгоритма актуальными новостями рынкапомогает держать руку «на пульсе» бизнеса.

Александр Парфенов о планах развития продукта:

По итогам успешных результатов нашихкампаний мы планируем дальнейшую оптимизацию диагностики и пользовательскогоинтерфейса прибора. Мы хотим сделать его показания максимально понятными длянеподготовленного пользователя, который приобретает прибор для частныхизмерений. В проекте – разработка интегрального параметра (включающего в себявсе показания прибора) для измерения состояния организма в баллах. Он долженстать максимально простым для понимания пользователя пульсометра.

Михаил Левиев

Короткая ссылка