Кому помогут новые ИТ-мантры?

Кому помогут новые ИТ-мантры?

Почему ИТ-рынок подвержен влиянию гуру и их заклинаний, и что нужно делать, чтобы большие данные стали не очередным веянием моды, а помогали зарабатывать деньги, рассказывает директор по работе с финансовым сектором компании SAS Россия/СНГ Юлий Гольдберг.

Как известно, чем больше людей повторяют мантру, тем большее влияние на общество она приобретает. Человек, даже скептически относящийся сначала к могуществу этого заклинания, услышав его от множества людей, и сам постепенно проникается верой и начинает думать, что если конкретно ему мантра не принесла искомого результата, то проблема скорее в нем самом, а не в ее силе. Возможно, это происходит потому, что среди множества людей, повторяющих эту мантру вновь и вновь, все же найдется тот, кто на самом деле испытал на себе ее влияние. Сила воздействия на общество таких «практиков» многократно выше, чем мнение «теоретиков», которые только слышали разговоры, часто из третьих-десятых уст, но сами даже близко не видели и не ощущали реальных результатов воздействия мантры.

Единая централизованная АБС, «единый источник правды», корпоративная шина данных, CRM, веб-банкинг, скоринг, аутсорсинг, краудсорсинг… За прошедшие годы все, кто имеет хоть какое-то отношение к банковскому ИТ, слышали множество подобных «мантр», на все лады повторяемых на конференциях, в традиционной прессе и в медиа нового формата. Часть заклинаний так и не смогла породить что-либо значимое и осталась светлой мечтой, благим пожеланием, зато некоторые реально изменили ИТ-ландшафт банков, улучшили жизнь клиентов, помогли заработать или хотя бы снизить потери.

Почти всегда, когда новая ИТ-мантра вбрасывается на рынок, появляются пионеры идеи, которые загораются ею, готовы внедрять ее даже несмотря на то, что никакого реального воплощения она на первых порах, как правило, не имеет. Поэтому, зародившись на уровне идеи, она имеет все шансы стать через несколько лет реальностью. Если, конечно, придется ко времени, и если первопроходцы на практике подтвердят ее состоятельность.

Практика – критерий истины

Реальные рыночные перспективы новой идеи, однако, зависят не столько от красоты концепции или энтузиазма первых адептов, а от того, какая «экономика» лежит в основе, может ли внедрение новой технологии или подхода дать конкретный экономический эффект, причем желательно в достаточно короткой перспективе. Например, концепция построения единой АБС в свое время будоражила умы руководителей банков ничуть не меньше, а может, и больше, чем тема больших данных сегодня. Сама по себе идея была просто прекрасна. Иметь изначально интегрированный программный комплекс от одного производителя – что может быть лучше, ведь такая АБС включает все необходимые блоки для работы отдельных подразделений банка, гармонично развивается для поддержки всех направлений бизнеса, не требует огромных затрат на организацию взаимодействия отдельных компонентов, позволяет «из коробки» поддержать любой сквозной процесс в рамках всего банка в целом, не требует держать в банке специалистов по десяткам различных программных продуктов от различных вендоров и т.п.

Но прекрасная идея разбилась о рифы реальности. С учетом того, что область деятельности банка очень широка, практически никому из вендоров не удалось реализовать требуемый объем функциональности по всем направлениям и с нужным уровнем проработки. Стоимость владения централизованной АБС зашкаливала из-за того, что вендор становился фактически монополистом для банка и мог диктовать свои условия. Качество услуг оставляло желать много лучшего – как и у любого монополиста, удовлетворенность клиента для вендора была не в первом приоритете. В итоге в любом крупном банке сегодня не встретить единой АБС, зато есть множество отдельных модулей от разных производителей, связанных между собой при помощи современных интеграционных платформ. Идея интеграции разнородного ПО оказалась гораздо более практичной и, следовательно, более сильной, чем красивая мечта о единой АБС. Кстати, победа концепции best of breed («лучшие в своем классе»), в свою очередь породила усиление интереса к интеграционным решениям и дала существенный толчок развитию технологий корпоративных шин данных, BPM и пр.

Большие данные в руках поставщика

Что такое большие данные? Очередная раскручиваемая производителями «софта» и «железа» мантра, или за этими двумя словами действительно открываются новые возможности для бизнеса, которые позволят окупить инвестиции и заработать? Что обычно несут ИТ-поставщики в массы под знаменем больших данных? Как ни странно, в первую очередь, речь здесь всегда заходит о необходимости хранения сотен терабайт, петабайт данных, которые порождает современная цивилизация, причем так, чтобы иметь к ним доступ для использования. Вендоры рисуют красивые графики, на которых объем данных экспоненциально возрастает с каждым годом, объясняют, что рост популярности интернета, соцсетей, появление технологий распознавания аудио-видео информации, широкое проникновение смартфонов и доступность GPS-позиционирования порождают огромные объемы данных. Предлагают современные дисковые массивы, MPP (Massive Parallel Processing) и in-memory базы данных, облачные технологии, которые позволяют где-то разместить все это богатство и азартно его копить. В попытке убедить заказчиков, что им нужно закупать все более мощные дисковые мощности и производительные СУБД, доходит до смешного. Так, получила распространение история об общественном туалете в Германии, который генерирует ни много ни мало 7 Тбайт полезных данных в неделю. «Если уж туалет производит столько информации, то вам, банкирам, без инструментов для хранения и обработки больших данных не обойтись».

Команда SAS в России занимается темой больших данных уже более двух лет. Концепция больших данных в нашем понимании означает включение в аналитический оборот максимального объема всех доступной информации и использование ее как в стратегических задачах, так и в операционных процессах взаимодействия с клиентами и принятия оперативных решений. Использование именно всех данных, без всяких технических или экспертных исключений и агрегаций – это принципиальный момент в подходе больших данных. В соответствии с этой концепцией нам приходится решать множество вопросов как в части радикального ускорения анализа традиционных структурированных данных, так и в части анализа неструктурированной информации, доля и ценность которой с течением времени увеличиваются.

SAS предлагает заказчикам наборы инструментов по таким ключевым направлениям, как High-Performance Analytics (высокопроизводительная аналитика и моделирование), анализ неструктурированных данных (Text Mining, категоризация контента, сентимент-анализ, распознавание фотографий и пр.), ad-hoc анализ и интерактивная аналитика в режиме реального времени (включая корреляционный и факторный анализ больших объемов данных), анализ больших потоков сообщений для принятия решений в реальном времени (Event Stream Processing и Real-Time Decisioning) и другим. Сегодня мы уже имеем успешный опыт практического применения этих инструментов в задачах кредитного скоринга, клиентской аналитики, целевого маркетинга, веб-аналитики, борьбы с мошенничеством, сбора просроченной задолженности.

Наш опыт в этой сфере позволяет сделать однозначный вывод, что большие данные оказываются совершенно бесполезными, если в банке не происходит революционных изменений в области применения аналитики, обработки и использования данных в принятии решений, если ключевые сотрудники (начиная от аналитиков и заканчивая топ-менеджерами) не проникаются важностью новых подходов для выживания в условиях жесткой конкуренции и обеспечения прибыльности бизнеса. В противном случае банк объективно может обойтись традиционными технологиями анализа информации, и вложения в большие данные лягут в расходы банка мертвым грузом. Может быть, слово «революция» в данном случае звучит слишком громко, но внедрение принципиально новых подходов к использованию аналитики и даже выстраивание новых процессов управления бизнесом, для монетизации инвестиций строго необходимо.

Как работает традиционный подход

В чем заключается смысл больших данных, и откуда вдруг этот подход может появиться в организации, ведь в нашей обычной жизни никто не станет менять процессы и подходы к принятию решений специально ради внедрения новой модной технологии? Главное в данном случае, как это ни странно, не размер хранимых и обрабатываемых данных, а принцип использования максимально полного объема всех доступных данных для построения моделей и принятия решений. Этот принцип всеобъемлющ и не относится к какому-то одному направлению анализа или к какой-то конкретной бизнес-задаче. Любые искажения исходных данных, вызванные техническими ограничениями программно-аппаратной платформы или экспертными мнениями специалистов (выраженными в отсечении части информации или ее агрегации), оказывают влияние на результат анализа, и поэтому должны быть минимизированы.

Возьмем такой пример: аналитик разрабатывает модель, прогнозирующую вероятность дефолта заемщика. В рамках традиционного подхода он для начала отбирает изо всех имеющихся параметров заявки и клиентов те, которые по его мнению являются значимыми. При этом он применяет как собственный опыт и логическое мышление, так и статистические методы, причем то и другое в определенной пропорции, которая обычно зависит от квалификации и предпочтений аналитика. Остальные параметры он просто игнорирует, и зачастую из десятков остаются единицы. Затем он проверяет качество данных, отбрасывает негодные записи (с незаполненными или некорректно заполненными атрибутами, с выплесками значений и т.п.).

На следующем этапе он формирует обучающую выборку: для этого сокращает количество записей (часто в крупных банках она составляет меньше 10% от полной выборки, то есть оставшиеся 90% вообще не участвуют в обучении модели), искусственно увеличивает число случаев дефолта в выборке (если их процент в каком-то конкретном случае недостаточен для корректной работы применяемого метода анализа – например, регрессионного). Только пройдя такую процедуру усечения и огрубления данных, эксперт применяет аналитический алгоритм для выявления закономерностей (в нашем случае – для построения модели прогнозирования дефолтности по характеристикам клиента).

Таким образом, аналитик в рамках традиционного подхода вынужден сознательно (на основе своей экспертизы и в рамках используемой методики подготовки данных и анализа) искажать исходную информацию. При таком методе он неизбежно рискует в какой-то степени «выплеснуть с водой и ребенка». Иногда влияние вносимых искажений на результат невелико, а иногда – очень существенно. Очень многое в данном случае зависит от самих данных, опыта аналитика, бизнес-задачи – здесь, конечно, очень сильно сказывается пресловутый «человеческий фактор».

Большие данные работают иначе

При использовании концепции больших данных подход к той же задаче построения модели прогнозирования вероятности дефолта принципиально меняется. Аналитик берет все доступные данные, не отбрасывает ненужные параметры, не ужимает полную базу клиентов и кредитных заявок до размеров обучающей выборки. Наоборот, он обогащает данные по клиентам, собранные самим банком, любой доступной информацией из внешних источников (интернет-запросы, социальные сети, кредитные бюро, информация от телеком-операторов и пр.).

В результате весь этот огромный массив целиком включается в аналитическую обработку. Это могут быть десятки терабайт данных (сотни миллионов записей с тысячами параметров), а могут и десятки гигабайт. То есть, для реализации подхода больших данных объем данных не так важен, главное, чтобы для анализа использовались все данные, без какой-либо рукотворной «усушки и утруски».

Конечно, для воплощения такого подхода нужны специальные аналитические технологии. Быстро, фактически в интерактивном режиме, обрабатывать гигантские объемы и обеспечивать при этом высокую точность прогнозирования – сегодня это уже возможно благодаря реализации новых алгоритмов прогнозного моделирования, применению апробированных методов анализа неструктурированной информации, и, конечно, широкому применению современной кластерной архитектуры для вычислений в оперативной памяти (in-memory). Выше приведен лишь один простой пример, демонстрирующий разницу в подходах, а таких примеров множество.

Банковская практика

Сотрудники компании SAS Россия/СНГ в ходе выполнения проектов обычно довольно тесно взаимодействуют с аналитиками крупных российских розничных банков. Естественно, когда тема больших данных начала раскручиваться и в России, то мы, основываясь на зарубежном опыте SAS, стали рассказывать банкам о чудесах, разработанных SAS: ускорении расчета моделей на порядок, а то и на два, возможностях интерактивного моделирования в реальном времени, новых методах анализа на полном объеме данных, а не на обучающих выборках, методах использования неструктурированных данных для повышения точности прогнозных моделей и т.п. В ответ в большинстве случаев приходилось слышать: «А зачем нам это надо?». Конечно, есть исключения – это настоящие приверженцы технологического развития, но их и раньше в банках было немного, а сегодня еще меньше, принимая во внимание сложную экономическую ситуацию и необходимость оптимизации расходов на всяческие исследовательские проекты.

Большинство банкиров, как это ни прискорбно для ИТ-вендоров, водрузив большие данные на свой щит, пока не могут ни осознать, ни поверить в преимущества, которые открывает использование новых технологий. Они вообще не видят какой-либо реальной потребности углубляться в эту тему, поскольку не чувствуют в ней новых конкурентных возможностей для себя и своего банка.

Простой пример: зачем аналитику возможность рассчитать скоринговую модель за 10 минут, если штатный процесс в банке предоставляет ему целый месяц на ее разработку? Этот аналитик совершенно спокойно относится к тому, что расчет идет несколько часов, тем более, что львиную долю времени в течение вышеозначенного месяца он тратит не на моделирование, а на предварительную обработку, очистку и подготовку данных. Чтобы аналитику стало интересно просчитывать модель за 10 минут, а тем более, за несколько секунд (такое сегодня тоже возможно за счет применения кластерных архитектур и вычислений в оперативной памяти), он должен сначала разобраться в процессах подготовки данных, упростив их радикально, а затем начать применять новые алгоритмы моделирования, предусматривающие элементы интерактивности в процессе исследования данных и разработки финальной модели. Например, если он уже увидел и оценил преимущества алгоритмов «лес решений» (Random Forest) вместо традиционных деревьев решений (Decision Tree), то абстрактный интерес к «Big data» получит хорошее практическое подкрепление. В нашей практике этот новый алгоритм дает повышение точности моделей сразу на 15 процентов и более. Для банка это означает конкретную дополнительную прибыль, вне зависимости от того, говорим ли мы о прогнозировании дефолта, покупки кредита или возврата просроченной задолженности. Но, как было сказано ранее, чтобы получить эту искомую точность, требуется другой подход к моделированию. Нужно иметь возможность быстро «прогонять» сложнейший аналитический алгоритм по огромному объему данных (часто это сотни миллионов и даже миллиарды строк – транзакций, погашений, коммуникаций и т.п.). Если аналитик может в течение дня прогнать процесс моделирования не один-два раза, а десятки раз, проверить результаты, скорректировать параметры настройки, да и еще все это – на полном объеме исторических данных, а не на небольшой выборке, – то в итоге он получит гораздо более точную модель и, соответственно, гораздо более точное представление о том, какие риски банк несет, что хочет клиент, и что нужно делать, чтобы зарабатывать на каждом клиенте больше.

Использовать все доступные источники

Сегодня внешние и внутренние обстоятельства, так или иначе, изменяют потребности организации в аналитических инструментах для поддержки текущих процессов бизнеса и принятия стратегических решений. Старые методы анализа информации и технологии, конечно, не сдают позиции в одночасье, но уже хуже справляются с этими потребностями. Конкуренты, регулятор, общая сложная экономическая ситуация – все это в совокупности загоняет маржу в отрицательную область. Сжимающаяся маржинальность заставляет более внимательно смотреть на продуктовую линейку и бизнес-процессы обслуживания клиентов, чтобы не получить минус в итоговой графе P&L. Кроме того, новые требования рынка в области качества обслуживания клиентов зачастую оставляют банку на принятие правильного решения всего считанные секунды. Несмотря на то, как часто и громко все мы будем повторять мантры про большие данные, процесс изменения потребностей бизнеса в аналитике активно идет, и, скорее всего, лет через пять-десять аналитический ландшафт даже в банке средней руки будет уже лишь отдаленно напоминать нынешний.

С другой стороны, для торжества концепции больших данных оказывается очень значимым тот факт, что все новые и новые источники информации о клиентах становятся доступны банкам для анализа – это соцсети, блоги и чаты, поведение клиентов в интернете (на сайте банка и не только), расшифровки телефонных переговоров с контакт-центром, данные телеком-провайдеров, разнообразных торговых сетей и т.д. Значительная часть этой информации представляет собой просто неструктурированный текст или другие типы неструктурированных данных. Если уметь использовать эту информацию для сегментации клиентов и лучшего понимания их потребительского поведения и связанных с ними рисков, то можно научиться гораздо лучше чувствовать собственную клиентскую аудиторию и получить весомое конкурентное преимущество.

Важный фактор, которым нельзя пренебречь сегодня – возможность получения дополнительной информации о клиентах в режиме реального времени, прямо в момент их коммуникации с банком. Когда-то такой сервис предлагали только кредитные бюро, а сегодня есть целый ряд дополнительных источников данных. Значит, если банк сможет в реальном времени обсчитывать этот доступный контент для обогащения профиля клиента, то это поможет лучше понимать его потребности, и банк получит возможность оперативно подобрать оптимальную схему коммуникации с ним. Таким образом, технологически стали доступными новые данные, новые методы анализа, новые схемы оперативной коммуникации с клиентами. Но все это не заработает без человеческого и организационного фактора, достижения определенного уровня зрелости банка, готовности его специалистов и менеджеров к тому, чтобы оставить проверенные схемы и методы анализа данных в пользу принципиально новых и часто менее прозрачных способов использования информации. У некоторых самых продвинутых российских банков (их пока совсем немного) потребности в обновлении уже созрели, и большие данные перешли у них из стадии исследований в область практического применения и монетизации.

Реальные примеры

Рассмотрим ряд примеров реального внедрения концепции больших данных в российских банках. Первый из них хорошо показывает, как внедрение новых бизнес-процессов и методов анализа порождает потребность в новых аналитических технологиях – технологиях больших данных. Представим себе крупный российский розничный банк, у него миллионы клиентов, широкая продуктовая линейка, полный спектр коммуникационных каналов взаимодействия с клиентами и мощное аналитическое подразделение, которое смогло поставить процессы анализа клиентских данных и моделирования на поток.

Несколько лет назад в банке было внедрено решение SAS Marketing Automation, построены прогнозные модели оценки вероятности отклика на предложения по основным продуктам (кредиты, карты, депозиты, расчетные счета, страховки, сервисные продукты), автоматизированы целевые маркетинговые кампании (более 100 типов), подключены все основные каналы коммуникации с клиентами (около 10 каналов, включая SMS, почту, отделения, контакт-центры, терминалы самообслуживания, банкоматы, e-mail, интернет-банк и др.). Изначально подбор оптимальных предложений и стратегий коммуникации с клиентами делался фактически экспертными методами, и результаты работы аналитических моделей (вероятность отклика на то или иное предложение, вероятность отклика по определенному каналу коммуникации) использовались фактически лишь как вспомогательная информация для специалистов, позволяющая им лучше сегментировать клиентов в зависимости от их потребительским предпочтений и склонности к коммуникации с банком по тем или иным каналам.

Затем банк приступил к внедрению SAS Marketing Optimization (SAS MO). Это решение нацелено не просто на оптимизацию персонального взаимодействия с конкретным клиентом для повышения его доходности. Оно позволяет максимизировать прибыль в целом по всем коммуникациям целевого маркетинга – с учетом предпочтений клиентов, всех ресурсных ограничений каналов коммуникаций и бюджетных лимитов, необходимости выполнения планов продаж, а также соблюдения контактной политики. Ключевым элементом, обеспечивающим эффективную работу системы-оптимизатора, является наличие среди характеристик клиента скоринговых баллов, показывающих его склонность откликнуться на предложение купить тот или иной продукт банка с теми или иными ценовыми и прочими параметрами, причем еще по определенному каналу и в определенное время.

При внедрении SAS MO работала команда талантливых аналитиков, которая быстро выявила ограничения имеющихся моделей – как по их составу, так и по качеству прогноза, который они обеспечивали. Понимая, что без нужного числа и требуемого качества прогнозных моделей эффект оптимизации будет гораздо слабее, чем можно было бы добиться, банк, помимо собственно внедрения и отладки процессов оптимизации, стал продвигать на новый уровень блок прогнозного моделирования. Количество моделей стало измеряться десятками, требования к их качеству существенно возросли.

И эти усилия были вознаграждены. Уже на первом этапе запуска новой системы банку удалось увеличить отклик клиентов на свои предложения сразу на 13%. И это при том, что банк и до этого проекта был, по мнению многих участников рынка, лидером по эффективности процессов взаимодействия с клиентами. Проект дал реальный стимул для применения новых подходов из области больших данных – для повышения прибыльности cross-sell бизнеса стало необходимо разрабатывать и поддерживать в актуальном состоянии гораздо больше моделей, причем разрабатывать их быстрее, обеспечивая существенно большую их точность. Технологии Больших данных, как оказалось, – это самый лучший ключ к решению таких задач. Этот пример примечателен тем, что применение технологий больших данных не было простимулировано искусственно какими-то энтузиастами или вендорами. Оно явилось прямым следствием решения актуальной для бизнеса задачи – оптимизации целевых маркетинговых коммуникаций.

Другой интересный пример показывает, как инноваторы помогли заработать своему банку дополнительную прибыль за счет внедрения в бизнес-процесс кредитного андеррайтинга инструментов текстовой аналитики. Банк много лет был лидером рынка потребительского кредитования и имел отлаженную методологию и технологию обработки кредитных заявок, их скоринга и принятия кредитных решений. Давление конкурентов и экономическая ситуация вынудили искать новые каналы привлечения заемщиков. Интернет – отличное место для поиска новых клиентов, и одновременно это канал коммуникации, канал для оформления документов. Беда банка была только в том, что через этот канал пошел совсем другой сегмент клиентов, и применение традиционных, казалось бы, прекрасно отлаженных за годы работы на рынке скоринговых алгоритмов привело к чрезмерному росту дефолтности, увеличению резервов и в итоге поставило под вопрос экономическую эффективность данного направления бизнеса. Но банк не опустил руки. Нашлись инноваторы, которые решили, раз стандартные параметры клиентской анкеты и традиционные скоринговые подходы не могут помочь отобрать из интернет-заявителей платежеспособных заемщиков, то нужно поискать дополнительную информацию там, откуда они приходят – в интернете, и научиться обрабатывать ее в режиме реального времени, чтобы в течение онлайновой веб-сессии принимать решение и выдавать кредит.

И у банка все получилось. Нашлись провайдеры, которые смогли предоставлять по запросу банка в режиме реального времени текстовые данные поисковых запросов, активностей в соцсетях. Компания SAS предоставила свои инструменты текстовой аналитики и Real-Time Decisioning, которые позволили обогатить традиционный набор атрибутов клиента дополнительными важными характеристиками его поведенческого профиля, а также дали возможность обеспечить дополнение бизнес-процесса on-line скоринга анализом неструктурированных клиентских данных в реальном времени. В результате точность прогнозирования дефолта возросла почти на 25%, и ситуация с маржинальностью интернет-бизнеса стала входить в нормальное русло. Таким образом, благодаря включению в аналитическую обработку дополнительной неструктурированной информации о клиенте из интернета, а также за счет использования технологий SAS класса «большие данные» для моделирования на основе этой информации, банку удалось сохранить и развить существенное и перспективное направление бизнеса.

Подводя итог, можно сказать, что хотя для большинства банкиров большие данные пока являются в большей степени мантрой ИТ-вендоров, повторяемой на все лады, чем реальной потребностью, однако уже появились первые успешные проекты по применению новых методов и технологий бизнес-анализа. Уже есть первые цифры, позволяющие оценить окупаемость инвестиций в эти технологии, «выросли» первые пользователи, увидевшие их эффективность в решении практических задач. Но самое главное, что сегодня уже апробированы новые аналитические подходы, которые позволяют превратить большие данные в «большие деньги». На практике доказана их экономическая эффективность. И это происходит уже не только в Лондоне и Нью-Йорке, но и у нас в Москве. Благодаря этому позитивному опыту реализации первых проектов у инноваторов нашего банковского рынка, компания SAS готова не просто повторять клиентам прилетающие с Запада мантры, а может поделиться реальной экспертизой в области монетизации больших данных.

Юлий Гольдберг

Вернуться на главную страницу обзора