Больше половины банковской информации лежит мертвым грузом

Больше половины банковской информации лежит мертвым грузом

Отечественные банки хранят сотни терабайт информации. Из них, по разным оценкам, используется в лучшем случае 40% общего накопленного объема данных. При этом банки редко обращаются к внешним источникам информации из-за отсутствия проверенной методологии.

Анализ информации помогает банкам принимать решения по общим направлениям, таким, как формирование новых продуктовых линеек и услуг, повышение лояльности уже существующих клиентов и привлечение новых и др. Среди специализированных проблем, которые аналитические инструменты решают в банковской сфере, можно выделить повышение эффективности при сборе задолженностей, оптимизацию рисков при кредитовании, возможность минимизировать потери от мошенничества. В то же время среди терабайт накопленной информации реальную отдачу дает только небольшой процент данных: по разным оценкам, от нескольких единиц до 40%.

Потребности пока отсутствуют

Банк получает данные как из собственных информационных систем (АБС, CRM, процессинговые, скоринговые системы и т.д.), так и у других финансовых организаций (БКИ, биржа, банки-партнеры и др.). Но только малое количество этих данных анализируется.

Компания Доля анализируемой информации Что мешает анализу
ИТ-компания
IBS Крайне мало Данные могут быть неструктурированными и нестатичными. Для их обработки нужны инструменты аналитики и технологии больших данных
Ай-Теко На уровне статистической погрешности от объема доступной информации Поставщики ПО концентрируются в основном на развитии инструментов, а не на разработке методологии или бизнес-кейсов. Сейчас функциональные возможности ПО избыточны и превосходят запросы методологов и бизнеса финансовых организаций. Ситуация усугубляется тем, что использование многих внешних типов источников законодательно пока находится в «серой» зоне
Техносерв Консалтинг 1–3% нефинансовой информации и 20–40% финансовой информации Сложно обеспечить необходимую скорость выполнения финансовых операций при направлении аналитических запросов
Банк
ВТБ24 н/д Принципиальное несоответствие структуры хранилища и операционных систем: хранилище призвано хранить данные в табличном виде, а каждая операционная система использует объекты. Это приводит к необходимости перевода объектов в таблицы
Райффайзенбанк 20–30% Нет детальных бизнес-требований от соответствующих подразделений. Соотношение цены/полезности информации не выглядит привлекательным. Часть информации дублируется или находится в неструктурированном виде

Источник: CNews Analytics, 2014

Конечно, объем хранимых банком данных зависит от ряда факторов, в том числе от масштаба бизнеса, специализации учреждения, степени автоматизации бизнес-процессов. К примеру, для оформления ипотечного кредита нужно в несколько раз больше документов, чем для оформления кредитной карты. Всего данных в каждом отечественном банке накопилось столько, что Александр Горшков, начальник управления банковских технологий российского интегратора «Техносерв Консалтинг», оценивает их объем в десятки и сотни терабайт.

При этом объем анализируемой информации по сравнению с общим объемом всех хранимых банками данных невелик, отмечают в IBS. Оставшиеся за границей анализа данные могут представлять интерес для бизнеса с точки зрения принятия решений. «В неофициальных беседах представители банков признают, что такой объем информации может быть чем-то полезен и его необходимо как-то монетизировать, но пока у них нет понимания, как именно», – рассказывает Александр Сиркин, директор сегмента «Финансовые институты» в дивизионе бизнес-решений компании IBS.

Соотношение обрабатываемой и хранимой информации во многом объясняется тем фактом, что возможности инструментов превышают запросы бизнеса, считают в «Ай-Теко». Основным источником информации для банков остаются внутренние системы. Использование внешних источников данных (соцсетей, блогов, партнерских программ) минимально, хотя ряд вендоров уже предлагает серьезные инструменты для анализа информации, публикуемой пользователями в интернете. Такие данные можно использовать, чтобы повысить качество оценки кредитоспособности, для предотвращения мошенничества или продвижения маркетинговых предложений, но для этого необходимо менять сложившиеся бизнес-модели. «Несколько лет назад я услышал такую фразу: «У финансовых организаций нет Больших данных (Big Data), а есть большие проблемы (Big Problems)». Афористичное замечание до сих пор актуально. Связано это с необходимостью менять модели и подходы к ведению бизнеса», – заключает Илья Шулипин, директор департамента по работе с финансовыми учреждениями компании «Ай-Теко».

Проблемы и причины

Любой аналитический запрос удлиняет время принятия решения, что сказывается на конкурентоспособности финансового учреждения. Хранилища данных, создававшиеся в банках несколько лет назад, не способны анализировать информацию в режиме онлайн. «Со временем с этой задачей смогут справиться решения, рассчитанные на работу с большими неструктурированными данными, но мне видится их широкое применение не ранее 2016–2017 гг., – рассказывает Александр Горшков. – Сегодня в банках анализируется 1–3% имеющейся нефинансовой информации. Финансовая информация исследуется на порядок лучше». То есть, речь может идти о 10–30 процентах.

Сегодня, несмотря на технологические возможности, многие маркетинговые акции проводятся по старинке. Например, массовое предложение кредитов делается без учета интересов конкретного клиента, учитывается только потенциальная возможность беспроблемного погашения. В результате, поясняет Александр Горшков, значительная часть усилий сотрудников на развитие бизнеса расходуется впустую.

Главные препятствия
1 Слишком много хранилищ данных, не объединенных в одну удобную всей организации систему
2 Много времени тратится на анализ больших наборов данных
3 Нехватка квалифицированных специалистов (data-scientists)
4 Руководство не рассматривает большие данные как инструмент для создания корпоративной стратегии
5 Слишком сложно анализировать неструктурированные данные больших объемов
6 Анализ и хранение больших объемов данных стоит дорого
7 Большие данные слишком сложно хранить и анализировать

Источник: Capgemini, 2014

Конечно, банки могут найти новое применение хранимым данным, например, сделать подробную сегментацию клиентов на базе информации о проведенных транзакциях. В результате можно сформировать персональные предложения и сделать маркетинговые кампании более эффективными. «Целевой показатель в обсуждении пока не фигурирует — нет критериев оценки, но можно сказать, что большинство еще только начинает осознавать важность данных и работы с ними, – рассказывает Александр Сиркин. – Даже те, кто планирует делать расширенную сегментацию клиентов (такие проекты есть у большинства значимых игроков), тоже пока находятся в самом начале пути».

В Oracle и Райффайзенбанке также отмечают нехватку бизнес-требований и отработанных методологий. Илья Шулипин полагает, что развитие тормозится также консервативностью банков: в существующих моделях нет места для дополнительной информации, и ее использование в устоявшихся рамках предполагает существенные риски. Разработка новых или расширение существующих моделей ведется многими банками, но, учитывая неясные возможности возврата инвестиций, эти инициативы носят скорее исследовательский, нежели прикладной характер. «Казалось бы, даже не самые сложные области применения накопленных данных, например, клиентоориентированность, не реализуются, – рассказывает Илья Шулипин. – Причина проста: финансовые организации десятилетиями ориентировались на продукт, и все системы целей и ключевых показателей в банке способствуют именно такому ведению бизнеса».

Первые локальные проекты

В Райффайзенбанке объем хранимых данных составляет около 100–150 ТБайт. Из них для анализа и получения дальнейшей информации привлекается 20-30% данных. Часть информации поступает на анализ из внутренних источников, таких, как хранилище данных, базы фронт-офисных систем, CRM-системы (аналитическая и операционная), данные контакт-центра, процессинга пластиковых карт и других систем. Внешние источники также задействованы. Данные собираются в социальных сетях, бюро кредитных историй, из маркетинговых исследований, их получают у сторонних компаний и на интернет-ресурсах.

Решения для работы с Большими данными позволяют банку лучше систематизировать информацию, делать выводы, исходя из поставленных задач, и пользоваться инструментами для более точного понимания поведения своих клиентов. В результате облегчается переход на клиентоориентированный подход и становится возможным максимально задействовать оставшиеся 70–80% ранее не анализируемых данных. «Big data позволяют решать задачи cross- и up-sell, лучше понимать клиентов, точнее таргетировать предложения – вплоть до конкретного клиента банка, – рассказывает Александр Казаков, начальник управления технологической инфраструктуры Райффайзенбанка. – Анализ социальных сетей и других интернет-ресурсов дает представление о том, как представлен наш банк, позволяет создавать совместные программы лояльности с другими компаниями, улучшать работу call-центра и решать другие задачи».

Еще одно перспективное направление для технологий Больших данных – борьба с мошенничеством. Кредитуя потребителя, банки рискуют; по данным Национального бюро кредитных историй (НБКИ), за последний год размеры кредитного мошенничества выросли более чем в два раза: на 1 января 2014 г. кредиторы потеряли i 153 млрд (годом ранее же – всего i67 млрд). При этом количество потенциальных мошенников превысило цифру в 600 тыс. человек.

Крупный банк ежедневно рассматривает до 10 тыс. заявок на выдачу кредитов, при этом у большинства из них уже накоплено много информации о клиентах во всех регионах, на базе которой можно проводить качественный анализ. Первый проект с использованием аналитики Больших данных для минимизации рисков от мошенничества на территории России реализован в 2014 г. в Сбербанке компанией «Техносерв». Технология распознавания лиц используется, чтобы сравнивать фотографии клиента (сделанные в банке и вклеенные в паспорт) с фотографиями, хранимыми в базах Сбербанка. Рассказывает Александр Горшков: «Количество ежедневных транзакций в банке насчитывает десятки тысяч, а объем накопленной банком информации колоссален. Система распознавания лиц должна работать параллельно с другими аналитическими системами, поэтому пришлось сократить время отклика до нескольких секунд. При этом каждая заявка проходит почти по десятку баз, некоторые из которых включают около миллиона объектов. Команде интегратора пришлось погрузиться не только в бизнес-процессы банка, но и в математику процесса распознавания. Ведь силовым структурам, для которых изначально был разработан продукт по распознаванию лиц, такие скорости не нужны. В результате мы добились более 1,5 млн сравнений на одном процессоре в секунду». В «Техносерве» считают, что этот проект открывает новый сегмент на отечественном рынке биометрической идентификации.

Одна дорога

Лидеры отрасли уже пришли к пониманию того, что большие данные могут очень помочь, хотя пока и не поняли, как получить эту помощь. Успешно реализованная методология зачастую является know how. Однако пути, по которым банки приближаются к Большим данным, зачастую похожи. Процесс наглядно демонстрирует развитие событий в ВТБ24.

Сегодня одной из центральных систем ВТБ24 является единое хранилище данных, в котором аккумулируется информация из всех систем банка, в том числе и аналитическая отчетность. Текущий объем данных в хранилище составляет десятки терабайт, и это всего лишь несколько процентов информации, которая проходит через операционные системы банка. В хранилище не попадает детальная информация по всем шагам различных бизнес-процессов, например полный журнал совершаемых внутри дня изменений данных. Также там не хранится графическая и звуковая информация, только идентификаторы этих объектов.

На пути анализа всего массива данных стоит принципиальное несоответствие структуры хранилища и операционных систем. «Хранилище призвано хранить данные в табличном виде, а каждая операционная система использует объекты, поэтому для помещения информации в хранилище приходится переводить объекты в таблицы, – рассказывает Василий Зайцев из департамента CRM ВТБ24. – При этом скорость внесения изменений во все операционные системы должна быть настолько велика, что разработка механизмов «перекладывания» в табличный вид для всех этих изменений обошлась бы банку слишком дорого, в силу чего этого не происходит».

В ВТБ24 рассматривают возможность создания промежуточного хранилища, где бы хранилась вся неструктурированная информация из операционных систем, и которое бы стало единым источником данных для текущего структурированного хранилища.

Что касается данных, которые не доходят до хранилища, то банк настраивает бизнес-процесс так, чтобы задействовать их с максимальной пользой и исключить их передачу на анализ. Например, правила проверки проводок при срабатывании запускают параллельный процесс. Им может быть выявление некорректных или мошеннических операций или подсказки клиенту в нестандартной ситуации. «Для таких операций требуется анализ прошлого на предмет выявления корректных триггеров. Использование технологий Больших данных в этом случае не оправдан, так как достаточно имеющейся информации, – уточняет Василий Зайцев. – Но в ближайшем будущем ожидается запуск пилотного проекта на веб-сайте, где банк попытается отойти от этого правила и проанализировать поведение клиента в формате больших данных вместо простого реагирования на триггеры».

Когда большие данные попадают в хранилище, проводится как статистический анализ, так и data mining. «Первый заключается в создании агрегатов за период и приведении данных в вид, доступный анализу «глазами». Data mining же проводится по-старинке: выбирается репрезентативная выборка или какое-то интересное подмножество, что позволяет перейти от больших данных к достаточно компактным без снижения качества анализа», – рассказывает эксперт. ВТБ24 также проводит пилотное использование системы, позволяющей «углубляться» в данные сводного отчета вплоть до конкретной операции. Тем не менее, отмечает Василий Зайцев, на текущий момент проблема интеграции системы и хранилища довольно болезненна, и банк не готов запускать эту систему в промышленную эксплуатацию.

Вероятно, подобные проблемы ожидают и другие банки, которые будут пытаться перестроить бизнес с учетом возможностей технологий больших данных. При этом видно, что речь идет только о накопленной, корпоративной информации. Внешние источники пока не рассматриваются.

Екатерина Кочеткова

Вернуться на главную страницу обзора