Разделы

Бизнес

Интеграция данных: о чем болит голова у ИТ-экспертов?

Последние 40 лет в ИТ-индустрии данные всегда понимались в совокупности с приложениями, к которым относились. Получить необходимые вам данные можно было, лишь открыв конкретное приложение, будь то электронная почта или бухгалтерская программа. Такую ситуацию нельзя охарактеризовать как гибкую - информация должна быть доступна всегда и везде – такова главная мысль Data Integration Forum, состоявшегося недавно в Москве

Еще одна задача – синхронизация и консолидация данных: здесь можно выделить консолидацию данных из многих систем, обмен данными между системами, подразделениями и организациями, распространение бизнес-объектов по схемам от одной системы к многим, каждая с каждым и т.д. И не менее важная и востребованная задача – миграция данных с устаревших приложений на новые.

При этом к особенностям российского рынка выступавшие на форуме эксперты отнесли тот факт, что многие отечественные компании, сталкиваясь с задачами интеграции, отдают предпочтение ручной разработке вместо применения промышленных средств.


Марк Сигер: Довольно часто данные из одного корпоративного источника не подлежат повторному использованию в другом месте

Для ручной разработки характерны ее уникальность, привязка к персоналу и конкретным системам, а также высокие затраты на ее разработку и поддержку. Промышленные средства разработки дают универсальность, независимость от конкретных разработчиков, высокую скорость самой разработки, а также простоту поддержки и внесения изменений. Выгоды от промышленного подхода к интеграции данных очевидны: это и сокращение затрат на функции поддержки и развития, и повышение прибыли за счет быстрого принятия решений, основанных на качественных данных, и сокращение затрат на разработку, и снижение операционных затрат. Согласно исследованию Forrester, при промышленном подходе к интеграции данных из сэкономленных средств 57% приходится на разработку, 14% - на поддержку. Если в начале разработки совокупная стоимость владения явно ниже при ручной разработке, чем при использовании промышленных средств интеграции, то со временем все меняется с точностью до наоборот.

Еще одна особенность российского рынка - его молодость и идущее сейчас активное развитие. Тем не менее, на отечественном рынке пока присутствует мало систем класса mainframe и midrange; многие промышленные системы класса CRM, ERP, SCM только начинают активно внедряться нашими компаниями, соответственно, у многих компаний пока мало исторических данных.

Отдельно обсуждались перспективы российского рынка и присутствующие на нем тенденции. Все большее значение для российских компаний приобретает качество хранимых данных. По прогнозам META Group, ежегодный рост рынка программного обеспечения и услуг в сфере качества данных будет составлять порядка 20-30%. Вторая тенденция – стандартизация и консолидация инфраструктуры компаний, улучшающая доступ к информации при устранении независимых структур данных. Важен тот факт, что компании начинают осваивать стратегический подход к информации – системы Business Intelligence и хранилища данных становятся важной частью проектов с большими перспективами для бизнеса.

Business Intelligence все чаще используется как рабочий инструмент – помимо решения стратегических задач компании хотят использовать информацию, полученную из своих данных с помощью BI и DWH, для принятия тактических решений. И еще одна тенденция – множество корпоративных приложений и наличие изолированных структур данных приводят к необходимости эффективно интегрировать справочные данные, рассеянные по всей компании.

Выбираем средства интеграции

8 задач, чтобы перезапустить инженерную школу в России
импортонезависимость

Из современных средств интеграции можно выделить три основные технологии, так называемые "три Е" - EAI, EII и ETL. EAI, или Enterprise Applications Integration, заточена под процесс-ориентированную интеграцию и применяется, когда имеется процесс на основе транзакций. EII (Enterprise Information Integration) означает интеграцию корпоративной информации, хорошо подходит для интеграции данных в режиме реального времени. ETL (Extract, Transform, and Load) отвечает за интеграцию больших объемов данных, трансформации любой сложности и получение достоверных данных.

Часто специалисты заблуждаются, полагая, что EAI и ETL – это одно и то же, или что один продукт (на базе одной технологии) может выполнить все требуемые задачи по интеграции. Однако каждая технология обладает своими уникальными особенностями и решает лишь определенные задачи. К примеру, почему нельзя использовать EAI вместо ETL? У EAI слабые возможности по трансформации, пакетной обработке данных, слабая поддержка баз данных, отсутствует поддержка специальных функций для построения хранилищ данных. В то же время в ETL плохо реализована поддержка real-time – время отклика измеряется в секундах, а не в миллисекундах. Также в этой технологии слабая поддержка транзакций, ее архитектура не основана на шине. Таким образом, сегодня для интеграции транзакционных систем на уровне сообщений в реальном режиме времени используется EAI. Для интеграции данных из систем в пакетном режиме по расписанию либо по запросу – ETL.

Как обеспечить качество?

Александр Бабкин, Газпромбанк: Сейчас иностранные ИБ-решения в Газпромбанке замещены на 65%
безопасность

Обеспечение качества данных в интеграционных проектах – нетривиальная задача. В стандартном процессе обработки данных имеется ряд источников данных – это различные базы данных, плоские файлы и т.д. – и ряд приемников файлов – это системы класса ERP, CRM, BI, биллинговые системы. Оценить качество данных можно по ряду параметров, таких как их полнота – когда все требуемые записи и значения существуют, согласованность (типы, форматы, ключи, коды, значения хранятся в нужном формате), точность (соответствие реальности), связность (отсутствие конфликтных данных), неразрывность и другие.

Процесс управления качеством данных можно разделить на следующие этапы: определение качества исходных данных – определение правил обеспечения качества этих данных – разработка процессов очистки данных – внедрение этих процессов – контроль. Для этапа исследования можно использовать средства профилирования – они осуществляют быстрый анализ данных во всех исходных системах, выдавая заключение и предлагая инструкции по построению обработки данных. Определение и построение правил обеспечения качества данных крайне важно для стандартизации, сравнения и консолидации.