Спецпроекты

На страницу обзора
Data Mining: поиск закономерностей
Технология Data Mining в России используется в основном банками, ритейлерами и телекоммуникационными компаниями. Банки с ее помощью оценивают платежеспособность потенциального заемщика, ритейлеры анализируют спрос на тот или иной продукт, а телекоммуникационные компании, основываясь на аналитических показателях, продвигают новые услуги. Однако DM-проекты представляют собой исследования, главная особенность которых – это непредсказуемость результата.

Data Mining – это интеллектуальные технологии или методики, предназначенные для выявления скрытых закономерностей в большом объеме накопленных данных. Общий смысл понятия – поиск скрытых закономерностей в данных для решения конкретной бизнес-задачи.



Методики или технологии используются для решения двух основных типов задач: описательных и предиктивных. Описательные задачи, по словам Максима Гончарова, специалиста по продаже бизнес-решений Microsoft в России, помогают выявить ранее неизвестные закономерности, установить взаимосвязь между событиями. Предиктивные задачи направлены на прогнозирование событий или поведения клиентов.



Он пояснил, что проекты внедрения DM нельзя рассматривать как проекты в привычном смысле этого слова. Это прежде всего исследования, поэтому главная их особенность – непредсказуемость результата. "При внедрении технологий DM на начальном этапе обычно отсутствуют четкие критерии, цифры и сроки. Если стоит задача выявить закономерность в большом объеме данных, то всегда надо быть готовым к тому, что ее просто может не быть. Также при анализе могут выявиться совершенно другие закономерности, а не те, на которые заказчик рассчитывал изначально", – отметил Максим Гончаров.



Использование по-умному


Основными потребителями Data Mining в России, по словам экспертов, по-прежнему остаются банки, ритейл и телекоммуникационные компании. Андрей Свирщевский, руководитель направлений аналитики и гарантирования доходов компании SAS Россия/СНГ добавляет, что существуют типовые методологии DM, например для кредитного скоринга, клиентской аналитики (привлечение, удержание, увеличение продаж и др), формирования тарифов в страховании (чтобы рассчитать тариф, нужно проанализировать вероятность возникновения хотя бы одного страхового случая, сколько случаев может произойти и сколько денег потребуется для возмещения ущерба), предсказания мошенничества (отдельные методики для банков, телекома, для налоговых, таможенных и прочих государственных органов), предсказания неисправности оборудования.



"Наиболее типичные примеры использования технологии DM – это поиск прибыльных клиентов; понимание потребностей пользователей; предупреждение ухода клиентов; предсказание уровня продаж; построение эффективных маркетинговых кампаний; обнаружение и предотвращение мошенничества; исправление данных в процессе ETL", – перечисляет Максим Гончаров.



DM поддерживает бизнес


Как пояснил Виктор Булгаков, руководитель департамента управленческой информации "Вымпелкома", с помощью инструментов Data Mining компания решает традиционные для телекоммуникационных операторов задачи стимулирования спроса, удержания абонентов, продвижения новых продуктов и услуг. Инструменты Data Mining являются неотъемлемой частью комплекса Business Intelligence оператора.



"По каждому абоненту мы получаем несколько сотен аналитических показателей. На основе этих данных мы строим различные модели, которые в дальнейшем используем, например для продвижения новых услуг среди наших клиентов. Большинство проектов запускается только при наличии положительного Business Case. Фактический возврат от инвестиций полностью оправдал себя, рентабельность проекта превысила 65%", – рассказал Виктор Булгаков.



Он добавил, что при оценке эффективности процессов с использованием DM часто есть соблазн главным фактором считать сам инструмент DM. Но главным фактором остается система отношений "маркетолог-аналитик". "Возможности применения DM широки, и при этом нужно удерживать в уме идею окупаемости. Расширение целесообразно в областях, где требуется достижения качественного улучшения и где цена вопроса велика. К таким областям, например, относится управление сетевой инфраструктурой. Это сложная область специфична из-за большого объема данных, и по этой причине традиционные подходы требуют уточнения", – отметил Виктор Булгаков.



Закономерная сложность поиска


Основная проблема при внедрении DM-решений заключается в подготовке данных к анализу, что требует от большинства организаций наличия хранилищ данных с регламентными ETL-процессами, позволяющими строить витрины данных для анализа. "Другая распространенная проблема возникает, когда мы пытаемся настроить систему на принятие решения в области редких событий (например, оборудование ломается не так часто, поэтому у статистики возникают сложности, т.к. она привыкла работать с большими выборками: когда случается только 3 отказа за год, найти статистическую закономерность значительно сложнее). Тем не менее, эта проблема решается с помощью специализированных методов DM, ориентированных на редкие события", – говорит Андрей Свирщевский.



Он уверен, что еще одна сложность заключается в том, что в составе предикторов, на основе которых рассчитывается вероятность события, возникает потребность использования неструктурированной информации (должности клиента, названия компании-работодателя, комментариев операторов контактных центров и т.д.). Тогда в связке с DM для анализа используется Text Mining.



Другая серьезная проблема – недостаточная образованность заказчиков, которые еще не до конца осознали необходимость DM. "Нет общего понимания, что статистика может и должна помогать принимать взвешенные, обоснованные решения", – говорит Андрей Свирщевский.



Кроме того, заказчики DM-решений могут столкнуться с недостатком специалистов, что, в первую очередь, связано с молодостью отрасли. Профильное DM-образование появилось недавно, а в учебном процессе термин Data Mining мог вообще не использоваться. Хотя история DM в настоящее время насчитывает больше времени, но недостаток ресурсов, по словам Андрея Свирщевского, все же ощущается.



Умное продвижение


Эксперты отмечают, что спрос на Data Mining в России по итогам 2012 г. вырос благодаря нескольким факторам. Во-первых, компании стали разделять клиентов на большее количество сегментов и стремятся более точечно с ними работать. Так, DM активно осваивают интернет-площадки для определения шаблонов поведения потребителей. Для этого они используют анализ информации из соцсетей. Это, по словам Максима Гончарова, дает возможность предлагать клиентам контекстную рекламу, основываясь не просто на их запросах в поисковиках, но и на их личных предпочтениях и увлечениях. "В-третьих, данных становится больше, и эксперты уже не могут качественно и эффективно обрабатывать их вручную, требуются специальные методы анализа закономерностей, что также побуждает компании внедрять DM", – добавил представитель SAS.



Андрей Свирщевский отмечает, что методы для анализа закономерностей и построения систем поддержки принятия решений применяются в настоящее время не только крупными корпорациями. В целом, препятствием для внедрения DM-решений остается их дороговизна, поэтому многие компании не могут их себе позволить, считает Максим Гончаров.



Выделить конкретную статистику по использованию Data Mining не представляется возможным только потому, что это – всего лишь инструмент Big Data. Однако о том, что технология будет набирать популярность, косвенно свидетельствуют общие прогнозы аналитиков. Согласно январскому прогнозу IDC, мировой рынок технологий Big Data будет расти в среднем на 31,7% в год и достигнет к 2016 г. $23,8 млрд. Аналитики Gartner прогнозируют, что мировые расходы на Big Data в 2013 г. составят $34 млрд. Прошлогодний аналогичный показатель составлял $28 млрд. По данным Gartner на март 2013 г., более 40% ИТ-директоров или уже инвестировали в Big Data, или планируют сделать это в 2013 г. Согласно прогнозам независимых исследовательских компаний, в 2013 г. совокупные мировые расходы на Big Data достигнут $120 млрд.



Виталий Кузьменко

Интервью обзора

Рейтинги

Крупнейшие поставщики BI-решений в России 2013
Название  Выручка по направлению BI, 2012, тыс. руб.(с НДС)
1 Прогноз 3 861 020
2 Ай-Теко 290 020
3 Техносерв Консалтинг 240 000
Подробнее