Разделы

Цифровизация Инфраструктура

Спор продолжается: каким быть хранилищу данных

Поводом для написания данного материала послужила статья "Хранилища данных: шаги от идеи до внедрения", опубликованная CNews 17 августа этого года. Спор экспертов об основах и практических моментах создания и внедрения хранилищ данных продолжается.

Проблемы с ориентацией в информационном потоке наблюдаются в любой сфере деятельности современного человека. Особенно это заметно на примере крупной компании, которая динамично развивается на рынке. При этом неважно, каким бизнесом компания занимается. Проблемы с правильным структурированием информации везде примерно одинаковые.

Если бизнес компании развивается, то растут и ее потребности в информации. Приобретаются новые системы, заменяются старые, строятся различные решения. Со временем набор различных приложений в компании начинает походить на зоопарк. С одной стороны, требуемые функции по обработке информации вроде бы выполняются, но, с другой, теряется понимание. Каждое решение имеет свои особенности в визуализации обрабатываемых им данных: отчетную систему или набор собственных форм. Четкой согласованности между системами и решениями обычно нет. Отсюда и вытекают основные проблемы с пониманием информации: несовместимость, отсутствие полноты, различия в форматах представления и т.д.

Но компания должна развиваться дальше - задерживаться в развитии из-за беспорядка в собственных данных нельзя. Вот здесь на помощь и приходит технология использования хранилищ данных.

Вид на бизнес с высоты

Конечно, любой представитель крупной компании и так знает, что получить требуемые сведения не так-то просто. Но практика показывает, что основная проблема при внедрении хранилищ данных – это постановка задачи, напрямую связанная с пониманием необходимости внедрения.

Хранилища данных не привносят никакой новизны в сведения, которыми оперируют. Это всего лишь копия существующих данных в системах компании, но представленная в форме, удобной для последующей визуализации и проведения расчетов. Основными задачами компании, принимающей решение о построении хранилища данных, являются обычно получение единой, консолидированной отчетности в определенных областях деятельности компании и, проведение аналитических операций над существующими данными для выявления различных зависимостей.

Динамичной компании очень важно получить единый взгляд на собственный бизнес, оценить его "сверху", быстро определив область, где работа компании является особенно успешной. Иногда необходимо на основании существующих сведений провести анализ влияния тех или иных факторов на бизнес, что можно осуществить только с помощью полных и согласованных данных.

Стандартная схема хранилища данных

Стандартная схема хранилища данных

Естественно, любое решение, в том числе и построение хранилища данных, можно реализовать двумя путями: промышленными средствами или отдельной заказной разработкой, используя силы программистов, с доставкой данных из исходных систем в средство отчетности или анализа напрямую, минуя хранилище данных.

Дискуссия в метавселенной: ИИ, обмен данными и иммерсивные сценарии
ИТ в банках

Заказная разработка, на первый взгляд, более привлекательная с точки зрения получаемой функциональности и себестоимости, но на самом деле этот вариант чреват большим количеством проблем. Среди них низкая скорость передачи данных, сложная и ресурсоемкая разработка и техническая поддержка проекта, низкая скорость реакции на требования бизнеса, высокая себестоимость подобного подхода, а также плохая документированность решения или ее отсутствие.

По сравнению с такими разработками промышленные решения выгодно отличаются высокой скоростью создания ПО и внесения изменений, производительностью, возможностями по подключению к различным источникам данных без дополнительного программирования, а также реализацией трансформаций любой сложности и наличием официальной технической поддержки от производителя ПО.

Вот почему рекомендуется использовать подход по построению хранилищ данных с применением промышленных средств.

Дмитрий Балдин, «РусГидро»: Вынужденный переход на open source приводит к увеличению поверхности кибератак
безопасность

Иногда используют промежуточную область хранения данных (см. рис. 2), называемую ODS (Operational Data Storage, оперативное хранилище данных). ODS используется для прямого копирования данных из исходных систем в ту же среду, где располагается настоящее хранилище. При этом подходе в ODS находятся точные копии данных исходных систем для облегчения последующей доставки в хранилище данных с использованием однотипных средств выгрузки/загрузки. Обычно ODS используется при усложненном доступе к исходным данным по времени или расположению.

Схема хранилища данных с использованием ODS

Схема хранилища данных с использованием ODS

Источниками сведений для хранилища могут являться транзакционные системы, базы данных, файлы разных форматов и т.д. Словом, все виды информации, которые могут понадобиться для последующей отчетности или анализа.