Спецпроекты

На страницу обзора
Источник фото www.informatica.com
«Сердцем» цифровой компании становится умное управление данными
Cегодня данные оказываются центральным звеном в работе предприятий, обретающих цифровой облик. Своими мыслями о том, как меняется роль и место технологий работы с данными в современных компаниях, CNews рассказал Эмилио Вальдес, вице-президент компании Informatica по регионам: Европа, Ближний Восток, Африка и Латинская Америка, и Рази Шарир, вице-президент Informatica по продуктам Big Data.

Эмилио Вальдес

CNews: Компания Informatica занимается технологиями управления данными уже четверть века. Насколько существенно изменилась за это время бизнес-аналитика?

Эмилио Вальдес: Да, уже более 26 лет мы занимаемся тем, что помогаем клиентам трансформировать данные в знания, полезные для ведения бизнеса. В начале этого пути актуальным направлением была бизнес-аналитика, Business Intelligence. Но с течением времени данный подход активно эволюционировал, и сегодня самой горячей темой на рынке является искусственный интеллект (ИИ) и машинное обучение (Machine Learning, ML). Причем, если еще несколько лет назад эти вопросы относились к разряду научных исследований и было сложно представить, как их привязать к бизнес-задачам, то сегодня применение ИИ и ML позволяет решать принципиально новые задачи бизнеса.

CNews: Все дело – в появлении новых методов обработки имеющихся данных с помощью технологий ИИ?

Эмилио Вальдес: Все несколько сложнее. Между данными и методами ИИ имеются, скажем так, двусторонние отношения: данные нужны ИИ для работы алгоритмов, а ИИ, в свою очередь, необходим, чтобы управлять обработкой данных. Приведу пример.

Буквально на днях Informatica объявила о выходе на рынок нового продукта – Customer 360 Insights. Это ИТ-решение относится к решениям для управления мастер- данными. С помощью искусственного интеллекта Informatica Claire оно связывает разрозненные клиентские данные из множества источников различной природы: социальные сети, чаты, сиcтемы call-центра, приложения электронной торговли, аналитические хранилища данных и т.д. Таким образом создаётся широкое и актуальное понимание клиента в контексте его действий.

Customer 360 Insights не только синтезирует все это множество разноплановых и неструктурированных данных в единое понимание клиента. Решение также рекомендует следующее действие в общении с ним. Клиент в реальном времени связывается с контекстом своих действий, что помогает – также в реальном времени – предугадать, какой продукт лучше всего ему предложить.

Этот подход прекрасно иллюстрирует эволюцию: от традиционной аналитики к реальным инсайтам, на основе которых можно действовать. Cегодня на первый план выходит аналитика нового поколения, в том числе, предиктивная. Она обеспечивает поиск инсайтов, то есть предположений о закономерностях, имеющихся в данных, которые полезны для бизнеса.

CNews: Инсайты – это, пожалуй, один из краеугольных камней современных аналитических технологий на базе ИИ. Однако генерировать инсайты с помощью ИТ-решений крайне сложно, в связи с чем этой деятельностью обычно занимается человек-аналитик. Как компании Informatica удалось добиться серьезных результатов в автоматизации инсайтов? Похоже на магию…

Рази Шарир: Искусственный интеллект – это не магия. Это набор алгоритмов: статистические, стохастические, детерминистские алгоритмы и много других. Используются также семантические алгоритмы: обработка текстов на естественных языках, лингвистический анализ, преобразование текста в смысловой элемент. Все эти алгоритмы должны работать вместе, чтобы давать правильный результат. Они известны давно, используются в реальных задачах давно и продуктивно. Важно не то, насколько это новые алгоритмы. Важно, каким образом вы их подбираете для своего ИТ-решения.

razi_sharir_informatica_vp_of_products_bigdata.jpeg
Рази Шарир: В конечном итоге результат зависит от того, насколько точно искусственный интеллект сможет понять взаимодействие человека с технологией, со своей социальной средой, его поведенческими паттернами и закономерностями

Эмилио Вальдес: Да, именно так. Но это очень непростая задача. Ее решение потребовало от нас серьезных изменений, разработки новых технологий и продуктов, в том числе решений в области стратегического управления данными в компании, то есть в сфере Data Governance. Ключевой составляющей решений Informatica стал искусственный интеллект Claire – именно он помогает автоматизировать поиск и получение инсайтов, как в решении Customer 360 Insights, так и в платформе Informatica в целом.

По сути, Claire обеспечивает интеллектуальное управление метаданными, которое автоматизирует операции каталогизации и мониторинга данных и, кроме того, быстро адаптируется к любым изменениям. Отдельно отмечу, что это первый в отрасли ИИ, встроенный в платформу управления данными: он автоматически распознает типы данных и объекты данных, может группировать данные, связывать их между собой и помечать их определенным образом для более быстрого понимания ситуации.

Образно говоря, Claire является некоторой базовой прослойкой, которая позволяет сводить воедино все кусочки «мозаики» разрозненных данных в процессе управления данными. В частности, позволяет отыскивать похожие наборы данных в различных источниках, вырабатывать предположения, в каком месте наблюдается похожая взаимосвязь между данными или, наоборот, рассогласование данных, а также может подсказать, где качество данных низкое и каким образом это исправить.

Описанная функциональность открывает широкие возможности для работы человека-аналитика. Например, Claire может предложить бизнес-аналитику дополнительные наборы данных, соответствующие поисковому запросу. А еще Claire может автоматически связывать бизнес-термины с техническими терминами, что делает работу с данными более понятной и удобной для бизнес-пользователя.

Рази Шарир: В конечном итоге результат зависит от того, насколько точно искусственный интеллект сможет понять взаимодействие человека с технологией, со своей социальной средой, его поведенческие паттерны и закономерности. На основе этого уже можно предложить наиболее подходящий продукт, провести эффективную маркетинговую акцию, оказать оптимальную техническую поддержку и т.д. ИИ реально меняет корпоративный мир: мы лучше понимаем самих себя и наших клиентов.

CNews: Универсальная технология обработки данных – это, несомненно, отличная вещь. Однако оборотной стороной универсальности является недостаточная гибкость и скорость адаптации к специфическим особенностям конкретных задач. Как разрешить эту проблему?

Эмилио Вальдес: Гибкость и адаптивность платформы управления данными Informatica заложена изначально в ее архитектуре. Клиенты в зависимости от своих бизнес-потребностей выбирают модули этой платформы. Это могут быть модули для интеграции данных, их защиты, обеспечения качества, управления мастер-данными, управления большими данными, каталогизации и прочее. Помочь с подбором модулей под конкретные бизнес-задачи могут специалисты Informatica, а также эксперты нашего российского дистрибьютора – компании DIS Group.

Мы отлично понимаем, что важны не только технологии сами по себе, но и качество выполнения конкретных проектов. Специалисты DIS Group, с одной стороны, хорошо знакомы с техническими особенностями самой платформы управления данными. С другой стороны, они глубоко понимают российский бизнес, его задачи и потребности и могут помочь настроить решения так, чтобы они приносили максимальную пользу клиентам.

CNews: Для любого предприятия, работающего в любой стране, важнейшее значение имеет соответствие требованиям локальных регуляторов. Вопросы compliance – это угроза для адаптивности универсальных механизмов обработки данных?

Эмилио Вальдес: Для нас требования регуляторов – это не угроза, это возможности. Многие наши решения нацелены именно на то, чтобы помочь нашим клиентам соответствовать требованиям регуляторов, скажем, GDPR (General Data Protection Regulation, правила обработки персональных данных) в Европе или федеральный закон 152-ФЗ «О персональных данных» в России. В целом мы рассматриваем задачу управления корпоративными данными, с точки зрения большого количества разнообразных данных и большого количества различных требований регуляторов, определяющих работу с этими данными. Отличный пример – банки и телеком-компании. Это, пожалуй, самые «data-емкие» отрасли: там реально много данных и требований к работе с ними, в частности, упомянутые законы об обработке персональных данных граждан.

В соответствии с конкретным набором конкретных требований регуляторов решения Informatica помогают клиенту находить потенциальные проблемы с безопасностью данных, выявлять чувствительные данные, например, медицинские сведения, в ИТ-системах компании и маскировать их, обезличивать для дальнейшей обработки и т.п. Искусственный интеллект Claire, в частности, указывает источники данных для составления обязательной отчетности для регуляторов.

CNews: Интрига сегодняшнего дня: проприетарное ИТ-решение vs. Open source. Для одних вендоров поставщики open source – это прямые конкуренты, а другие трансформируют свои ИТ-решения в open source, делая ПО открытым, бесплатным. Как компания Informatica относится к миру open source?

Рази Шарир: Решения open-source проходят цикл развития, очень похожий на эволюцию закрытых продуктов, и многие из них в итоге становятся коммерческими. Это мы можем видеть на примере Linux, Apache Hadoop, Apache Spark и др. Многие организации, которые сейчас используют Hadoop, используют именно коммерческие дистрибутивы. Ведь корпоративным решениям нужна отладка, настройка, техническая поддержка. Кто это будет делать для open-source-инструмента? Если вы крупный оператор связи, банк или организация в сфере здравоохранения, как вы будете ложиться спать, зная, что ваша информация управляется ИТ-решением, за работу которого никто не отвечает? Разработчики коммерческих решений отвечают за их качество перед своими клиентами, поэтому стараются постоянно улучшать и оптимизировать код своих продуктов.

Платформа Hadoop сама по себе не конкурирует с решениями Informatica. На практике различные продукты этой экосистемы прекрасно сочетаются с нашей платформой. Скажу больше: часто при интеграции данных из традиционных источников в Hadoop просто необходимо решение Informatica. Например, среди российских клиентов много компаний, которые используют связку Informatica-Hadoop. Отличный пример – проект Ассоциации Независимых Аптек (АСНА). Платформа Informatica обеспечивает открытые API, аналитики и специалисты по данным (data scientists) могут легко подключать к ней удобные для них инструменты по работе с большими данными, будь то Apache Spark или Azure Databricks.

Отдельно отмечу, что не нужно гнаться за технологией ради самой технологии. Нужно гнаться за реальным бизнес-результатом. Informatica предлагает именно комплексную поддержку использования данных: клиенты приходят к нам с бизнес-задачей и уходят с готовым решением и пониманием, как это реализовать, с точки зрения технологии.

CNews: ИТ-мир быстро двигается в сторону принятия решений в реальном времени. Есть ли ответ на этот вызов в решениях Informatica?

Рази Шарир: Исторически продукты Informatica работали с пакетной обработкой данных. Сегодня источники данных становятся все разнообразнее, а сами данные поступают на обработку в реальном времени, в виде, так называемых, потоков данных. Платформа Informatica в нынешнем виде дает возможность работать с потоковыми данными, например, полученных с датчиков интернета вещей. При этом не имеет значения, где порождаются данные: на турбине самолета или металлообрабатывающем станке с ЧПУ. Информация обрабатывается именно по мере поступления, не приходится ждать накопления большего набора данных в базе данных или озере.

CNews: Поистине Data Governance принадлежит будущее! Вопрос в том, как это понимание передать от ИТ-специалистов бизнесу.

Эмилио Вальдес: Я не соглашусь с тем, что Data Governance – это будущее. Это уже настоящее. Помню, год назад в разговоре один из старших вице-президентов Informatica сказал: «Коллеги, на нас надвигается цунами управления данными». А сегодня мы уже научились жить внутри этого цунами. Инструмент Claire позволяет успешно осуществлять навигацию внутри него. Наша концепция стратегического управления корпоративными данными Data Governance примиряет техническую составляющую управления данными и бизнес-составляющую.

Известно, что у каждой из этих сторон свое понимание роли и места данных в бизнес-управлении. Технический специалист мыслит понятиями наборов данных (дата-сетами), полями таблиц и категориями качества данных. Бизнес думает о проектах, корпоративных политиках, о том, кому данные принадлежат, и куда они пойдут дальше, как на этих процессах скажутся изменения в данных. Раньше это было проблемой. Сегодня можно констатировать: эти два мира перестают существовать автономно, и пришло время единого подхода к эффективному управлению данными.

CNews: Похоже, вы нашли понятную «формулу» цифровой трансформации предприятия. Можете привести пример того, как с помощью такой формулы становится цифровым предприятие из какого-либо реального сектора экономики?

Эмилио Вальдес: С этой точки зрения, мне лично очень нравится кейс British Petroleum (BP). Известно, что на глобальном рынке ТЭК определился глобальный переход к низкоуглеродным источникам энергии, что связано как с новыми видами энергетики, так и методами повышения энергоэффективности используемых технологий. В таких условиях British Petroleum приходится не просто трансформироваться, фактически компании приходится изобретать себя заново. Как она это сделала?

В какой-то момент BP пришла к выводу, что централизованный подход к управлению данными больше для нее не применим. Стало очевидным, что бизнес-подразделениям необходим легкий и удобный доступ к данным – буквально, чтобы они могли «держать информацию на кончиках пальцев». Данные хранились в озерах данных на Hadoop. Однако в работе с озерами данных есть риск – озеро может превратиться в болото, если данные сваливать туда бессистемно, дать одинаковый доступ к ним всем сотрудникам компании. Так вот, чтобы ликвидировать этот риск, чтобы озеро данных не превратилось в болото, были использованы решения Informatica Big Data и Enterprise Data Catalog (с применением искусственного интеллекта Claire). Благодаря им сотрудник компании получает доступ только к тем данным, которые нужны ему для выполнения своих обязанностей. В любой момент времени он понимает, какие данные где хранятся и какого они качества.

CNews: То, о чем вы рассказываете, – это не просто некая цифровая трансформация бизнеса. Это революция в бизнес-процессах. Как управлять сотрудниками, у которых все данные – качественные и актуальные – буквально на кончиках пальцев?

Эмилио Вальдес: Доступность данных «на кончиках пальцев» – это объективный процесс эволюции. Этому помогают также продукты Informatica для самостоятельной работы с данными (self-service) аналитиков и data scientists, например, озера данных для самостоятельного поиска инсайтов. А чтобы такая доступность данных не нанесла вреда бизнесу, необходимо стратегическое и сквозное для всей организации управление Data Governance. В основе этого подхода – контроль за тем, чтобы правильная информация попадала в нужные руки. Иными словами, обеспечивается защита данных, предотвращение утечек конфиденциальной информации, оперативное выявление нарушений целостности данных. В числе важных свойств такого подхода к управлению – определение, кто является источником информации, и мониторинг изменений этой информации с течением времени.

CNews: Управление данными и безопасность данных – это очень близкие вещи?

Эмилио Вальдес: Да. Безопасность данных и Data Governance идут рука об руку. Система безопасности контролирует данные еще до того, как они попадут в конвейер обработки. На этом этапе может осуществляться шифрование данных, их маскирование, определение правил доступа для разных групп пользователей. Не менее важную роль играет обеспечение безопасности и далее, когда данные уже пошли по конвейеру обработки. Тут необходимо следить за тем, в какие системы они перемещаются, кто и каким образом будет с ними работать.

В этой связи очень важно понимать, что и безопасность данных, и извлечение из них выгоды имеют равное и большое значение. Хороший пример – область здравоохранения. С одной стороны, важно защищать личные данные пациентов от утечки во внешний мир, в руки мошенников. С другой стороны, эти данные нужны для улучшения результатов медицинских исследований и поиска наиболее эффективных методов и средств лечения. Выход – в маскировании, обезличивании данных. Это позволяет медицине двигаться вперед.

Интервью обзора

Рейтинги

Крупнейшие поставщики решений для анализа данных в России 2018*
№ 2018 Название организации Выручка по проектам аналитики данных в 2018 г., включая НДС, ₽тыс.
1 GlowByte Consulting** 3 357 474
2 Крок 2 161 120
3 Softline 2 142 998
Подробнее