Спецпроекты

На страницу обзора
Искусство аналитики: как сделать данные источником прибыли
Проект «Искусство аналитики» компании Teradata раскрывает красоту и глубину современных средств анализа информации. Передовая визуализация — вид искусства, который наглядно показывает обычно невидимую суть событий. Удивительно, но сложнейшие формулы и гигабайты данных можно превратить в картинку, которая понятна даже ребенку.

Проект The Art of Analytics («Искусство аналитики») демонстрирует эстетическую и практическую ценность совершенных систем визуализации данных. В современном мире тысячи событий, персон и объектов могут быть связаны между собой миллионами связей. Компьютерные системы сбора данных могут обнаружить эти связи, но охватить их одним взглядом и тем более отследить динамику не сможет даже гений с абсолютной памятью. Большие данные стали по-настоящему большими, и привычные графики и столбцы цифр уже не могут наглядно отобразить результаты сложного анализа.

Для решения проблемы анализа и наглядного отображения больших объемов сложных данных используются специальные технологии, такие как платформа массивно-параллельных вычислений Teradata Aster и средство визуализации Aster Lens. Аналитическую платформу можно использовать для выполнения сложных задач, например анализа активности соцсетей, выявления мошенничества, обнаружения киберугроз, выявления фактов отмывания денег. Система визуализации представляет результаты анализа в виде изображений: сложных графиков из связующих линий и точек событий. Эти изображения иногда очень красивы и напоминают абстрактные картины со сложной паутиной разноцветных линий и ярких звезд.

В проекте The Art of Analytics компания Teradata собрала более 20 картин-визуализаций от ведущих исследователей данных со всего мира. Каждая картина неповторима и является результатом определенного практического исследования. Но одновременно они имеют и эстетическую ценность. Рассмотрим несколько наиболее ярких визуализаций и примеров практической пользы подобных аналитических картин.

Фонтаны сомнительных связей

Исследователь Teradata Ци-линь (Мэри) Си (Qiling (Mary) Shi) работает в сфере банковской безопасности: анализирует риски в сложной китайской коммерческой системе.

Для одного крупного китайского банка Ци-линь Си провела анализ движения денежных потоков между компаниями. Система Teradata Aster обработала очень большой объем информации: более 60 млн записей о 670 тыс. компаний. В итоге был построен график, состоящий из 3883 точек и 3943 линий.

3.png

Опытный аналитик с помощью наглядных транзакционных «фонтанов» может одним взглядом оценить «здоровье» рынка и обнаружить ранние признаки кризиса. Стрелки указывают направление финансовых потоков

На визуализации транзакции выглядят, как разноцветные фонтаны, рассылающие финансовые потоки. Наглядность изображения помогает обнаружить запутанные связи между множеством компаний, скрытые от обычных инструментов мониторинга.

Такой анализ полезен во многих случаях, например для выявления незаконного вывода и отмывания денег, нецелевого расходования кредитных средств. Также визуализация помогает проверить активность компании, оценить ее финансовую устойчивость, найти самых важных игроков на рынке и слабые места в цепочке поставщиков, которые могут обрушить рынок. Финансовый поток можно отслеживать, например, в течение нескольких дней, создавая полную картину взаимозависимости компаний. Благодаря этому банки могут проводить более эффективную политику кредитования и управления активами. Иногда благодаря визуализации неочевидная в прочих случаях поддержка небольшой компании может спасти весь рынок.

Салют в честь поручителей

Консультант Центра экспертизы Big data компании Teradata Юй-Жуй Чжан (Yurui Zhang) визуализировал сложную картину на рынке кредитования недвижимости. Прежде всего бизнес-аналитика в этой области направлена на предотвращение кризисов и обвалов рынка и больших финансовых потерь для девелоперов и банков.

Для продажи жилых домов или квартир в новом здании девелоперы под свое поручительство предлагают покупателям выгодные кредиты, которые обычно приобретателям жилья не по карману. Покупатель в данном случае хорошо защищен: если цена на недвижимость резко упадет, можно будет прекратить выплаты займов и переложить эту проблему на девелопера. Но если девелопер выступает поручителем множества таких кредитов, в случае кризиса он не сможет покрыть все долги по займам, даже с учетом продажи подешевевшего жилья. Для банка это означает крупные финансовые потери.

10.png

Структура поручительских связей девелопера и заемщика похожи на взрыв фейерверка. На визуализации точки — это заемщики, а линии — связи между заемщиками и девелоперами

Чтобы оценить потенциальные риски, необходимо проанализировать все поручительские связи девелопера и приобретателя жилья. Девелоперы с наибольшим количеством таких связей являются для банка наиболее рискованными клиентами. При этом можно использовать аналитику соцсетей для установления отношений заемщика и поручителя. Проще всего поручительские связи увидеть именно в графическом отображении — в наглядной визуализации, где глаз мгновенно «цепляется» за самую густую сеть линий поручительства.

1.png

Еще один пример аналитики надежности поручительства. На этот раз визуализация позволяет выявить перекрестные схемы поручительства, которые многократно увеличивают финансовые риски для банков. На изображении отлично видно, как связаны между собой заемщики и поручители. Точки — это заемщики и поручители, толщина линий — сумма кредита

С помощью тех же аналитических инструментов Teradata Юй-Жуй Чжан также проанализировал финансовые риски при выдаче кредитов компаниям. При кредитовании важно распознать перекрестное поручительство, когда несколько компаний выступают поручителями друг у друга, чтобы привлечь более крупные кредиты. Когда в схеме перекрестного поручительства участвуют десятки компаний, корпоративных структур и подразделений в разных странах — очень сложно обнаружить факт перекрестного поручительства. Между тем оно несет дополнительные риски: банк может потерять сразу множество кредитов на сотни миллионов долларов.

2.png

Схожая визуализация может использоваться для анализа заявок об автокредитовании, поступающих из автосалонов. В некоторых случаях поручителями выступают связанные друг с другом организации. Это может вызвать эффект домино и нанести банку серьезный финансовый ущерб. На изображении четко видны такие взаимосвязанные структуры (синие и фиолетовые точки). Линиями отмечены связи между поручителем и поручаемым. Разные цвета — это принадлежность к определенному производителю и дилеру

Букет вкусовых оттенков

Аналитик Teradata Кайлаш Пуран (Kailash Purang) из Сингапура с помощью новых технологий решил весьма необычную задачу: наглядно продемонстрировал вкусовые оттенки 86 односолодовых брендов шотландского виски. Этому напитку уже более 700 лет, и разобраться в многообразии вкусов могут лишь немногие высококлассные эксперты.

12.png

Визуализация показывает 12 вкусовых характеристик виски: ореховый привкус, медовые нотки, сладость и т.д. С помощью линий можно проследить связь между вкусовыми оттенками почти сотни лучших брендов шотландского виски и определить их общие черты

Аналитика такого типа обычно применяется для продовольственного рынка, когда нужно позиционировать бренд, разработать новые типы вкусов и создать рекомендации по замене продукта близкими аналогами.

Соавтор проекта The Art of Analytics Александр Хайдл (Alexander Heidl) творчески переработал визуализацию вкусовых характеристик виски.

8..png

На графике, похожем на лист растения, точки являются брендами виски. Схожие по вкусу напитки расположены рядом друг с другом, а линии соединяют все бренды между собой

Наглядная визуализация в этом случае доступна любому бармену или официанту, которому нужно заменить отсутствующий сорт виски наиболее похожим напитком другой марки. Для этого достаточно выбрать наиболее близкий по линии графика аналог.

Глаз бури

Лондонский аналитик Teradata Кристофер Хиллман (Christopher Hillman) создал классическую визуализацию твиттер-шторма. Лавинообразное распространение реакции на сообщение в твиттере очень сложно отследить, поскольку оно вызывает массу реакций (положительных и отрицательных) и быстро становится глобальным.

Кристофер Хиллман проанализировал твиттер-шторм, вызванный смертью экс-премьера Великобритании Маргарет Тэтчер. Для анализа автор с помощью пакета Twitter собрал твиты за неделю и загрузил в Teradata Aster. Затем массив данных был обработан с помощью технологий data mining, в частности удалены нерелевантные твиты. В конце при помощи решения Aster Lens была создана визуализация.

13.png

На изображении хорошо виден «глаз бури» — эпицентр твиттер-шторма. Разные пользователи (точки на графике) ответили на первое сообщение, потом комментаторы появились уже у них. В итоге образовалась цепочка, связанных ретвитов или упоминаний ключевых слов. На графике эти связи изображены в виде линий

С помощью визуализации легко обнаружить причину твиттер-шторма — самое первое провокационное сообщение. Также можно четко увидеть негативную реакцию: отрицательные твиты выделяются большой группой за пределами эпицентра шторма.

Подобная аналитика применяется для обнаружения источников негативной и опасной информации, например пропаганды терроризма в социальных сетях. Также бизнесмены и маркетологи могут увидеть результаты своей пиар-деятельности. Правда, для эффективного анализа штормов в интернете нужно обработать очень большой объем информации. Для этого нужны специализированные платформы для обработки больших данных.

Паруса логистики

Аналитик Фрэнсис Лок (Frances Luk) работает в аналитической группе Teradata в Австралии и Новой Зеландии. В этом регионе очень развиты морские контейнерные перевозки, и логистические компании нуждаются в анализе эксплуатации контейнеров. Это важная работа, поскольку, например, один новый цельнометаллический 40-футовый контейнер стоит от $4 тыс. Крупные морские державы обрабатывают миллионы контейнеров ежегодно. Так, в 2014 г. оборот контейнеров в российских портах составил почти 4,5 млн 20-футовых контейнеров.

Огромное количество дорогостоящих контейнеров необходимо регулярно проверять и ремонтировать, ведь в контейнере может находиться очень дорогой груз. Специалисты в этой области хорошо помнят случай 2011 г., когда в Австралийском порту во время погрузки контейнер сорвался с шестиметровой высоты. Внутри были 5544 бутылок красного вина на общую сумму $1 млн. Все они разбились.

Контейнеры часто повреждаются во время транспортировки и операций по погрузке или выгрузке. Расходы на ремонт ложатся на логистические компании.

Аналитик Фрэнсис Лок помогла Maersk, одной из крупнейших логистических компаний планеты разобраться, какие факторы влияют на ремонтные расходы и продолжительность службы контейнеров. До этого компания не могла справиться с этой задачей, но современные инструменты анализа и визуализации решили проблему.

14.png

На визуализации узлы в правом нижнем углу — это повреждения контейнеров. Точки на верхней кривой являются товарами. Линии показывают, какой тип товара перевозился в контейнерах до момента его повреждения. Толщина линии обозначает затраты, связанные с ремонтом повреждений

Некоторые результаты анализа не стали откровением для заказчика. В частности, самая толстая линия указывает, что чаще всего контейнеры повреждаются при перевозке металлолома. Тем не менее, теперь логистическая компания может обосновать ценовую политику в отношении некоторых типов грузов и целиком охватить ситуацию с контейнерным парком.

15.png

Еще одна визуализация показывает качество ремонта контейнеров у различных поставщиков соответствующих ремонтных услуг. На первой колонке отмечены случаи предыдущего ремонта, а на второй — последующего. Линии, ведущие к концу графика, означают ожидаемый ремонт. В свою очередь, линии, которые ведут ко второму ремонту — неожиданный ремонт. Таким образом можно оценить статистику ремонта без посещения каждой ремонтной мастерской

Обычно контейнеры ремонтируются рядом с портом и сразу же отправляются на погрузку. С помощью визуализации логистическая компания смогла оценить качество ремонта у разных подрядчиков. Ранее сделать это было сложно, так как контейнеры постоянно в пути и разбросаны по всему миру. Если между ремонтами слишком маленький промежуток времени, высока вероятность, что предыдущий ремонт был сделан некачественно. Кроме того, аналитика помогает определить срок службы контейнера до следующего ремонта, спрогнозировать простой контейнера и возможные убытки.

Не просто искусство

Аналитика больших данных уже давно превратилась из дополнения к презентации в оперативный инструмент мониторинга и прогнозирования. Более того, она стала искусством объяснять сложные вещи с помощью простых образов, выражать недоступные большинству запутанные математические связи понятными всем линиями, цветами и геометрическими фигурами.

Сегодня компьютеры могут создавать ассоциативную («инстинктивно» воспринимаемую) графику, которая содержит десятки тысяч узловых точек и использует множество методик анализа, например кластеризацию, определение зависимостей, первопричин, анализ социальных сетей и т.д. Современные средства сбора и анализа информации, а также инструменты для визуализации результатов аналитического исследования помогают охватить сложнейшие процессы одним взглядом. В сравнении с привычными таблицами и кипами отчетов — это похоже на магию. Один короткий взгляд, и вы можете видеть все финансовые потоки большой компании или точки внимания миллионов интернет-пользователей. Технология по-настоящему универсальна и может применяться в малом бизнесе, фермерском хозяйстве, мегакорпорациях или в науке, например для анализа протеома человека.

Проект The Art of Analytics показывает силу ассоциативной графики. Удивительно, но с ее помощью можно даже объяснить основы квантовой физики ученикам младших классов. Нужен лишь талант художника и соответствующий аналитический инструмент.

Михал Левкевич

Интервью обзора

Рейтинги

Инновационная аналитика: проекты в России и мире
Заказчик Описание проекта
Зарубежные/международные проекты
Beth Israel Deaconess Medical Center Суперкомпьютер, построенный в медицинском центре Beth Israel Deaconess Medical Center в Бостоне, США, способен предсказывать дату смерти пациентов на основе медицинских данных с вероятностью 96%. Система хранит данные о 250 тыс. бывших и нынешних пациентах за 30 лет и фиксирует параметры жизнедеятельности пациентов в палатах с частотой раз в три минуты, записывая множество параметров — от давления крови до уровня кислорода. Основываясь на данных о пациентах, системаспособна выявлять редкие заболевания, которые обычный доктор может не увидеть или обнаружить не так быстро, как это способен сделать суперкомпьютер.
CERN CERN и Yandex Data Factory объявили открытый конкурс Flavour of Physics («Аромат физики») по машинному обучению. Участникам предлагается разработать алгоритм, который позволит отделить «сигнал» о специфическом распаде тау-лептона от «фона». Алгоритм поможет ученым обнаружить в данных Большого Адронного Коллайдера следы распада тау-лептона на три мюона τ- → μ+μ-μ- . Этот распад, нарушающий сохранение важного параметра элементарной частицы, лептонного аромата, станет указанием на свойства новой физики за рамками Стандартной Модели, поиском которой заняты ученые со всего мира. Задача участников конкурса — создать классификатор, программу, которая разделит события коллайдера на содержащие необходимый распад тау и не содержащие.
Подробнее

Рейтинги

Крупнейшие российские проекты внедрения BI-систем, 2014-2015 гг.
Заказчик ИТ-партнер / Решение
3M Company Прогноз/Прогноз
AirBridgeCargo BI Partner/Pentaho
DPD (экспресс-доставка) Корус Консалтинг/Oracle Business Intelligence 11
Подробнее

Рейтинги

Крупнейшие поставщики BI-решений в России 2015
Название Выручка по направлению BI, 2014,iтыс. (с НДС)
1 Прогноз* 4 013 481
2 AT Consulting 1 428 698
3 Softline 1 297 839
Подробнее