Разделы

Цифровизация Инфраструктура

Отказоустойчивые системы: зачем нужны и как построить

Стремление к повышению функциональности устройств значительно опережает темпы развития и усовершенствования существующих методов повышения надежности. В такой ситуации единственным эффективным средством защиты от сбоев в работе является построение отказоустойчивых систем. На что они способны?

Сегодня спрос на широкую функциональность ИТ-систем уходит на второй план, уступая место требованиям максимальной надежности. Особенно актуально это для бизнеса, где ошибка в работе системы или временной ее простой (составляющий порой секунды) оборачиваются более чем внушительными финансовыми потерями. Особенно сильно от такого рода аварий страдает финансовая индустрия, час неработоспособного простоя которой может исчисляться несколькими миллионами долларов убытка.

Финансовые потери по вине отключения электричества

Индустрия Операция Средняя стоимость часа простоя, $
Финансы Маклерские операции
6,5 млн.
Финансы Авторизация кредитных карт
2,6 млн.
Средства массовой информации Платное телевидение
1,1 млн.
Торговля Покупка из дома (ТВ)
113 тыс.
Транспорт Резервирование билетов
89,5 тыс.

Источник: Gartner

Ядерная энергетика, военная и авиационная промышленность представляют собой наивысшую потенциальную угрозу человеческой жизни и окружающей среде, и по этой причине особенно нуждаются в наличии максимально надежных и безотказных систем, исключающих в работе сбои по вине человеческого фактора. Такие решения не только возможны, но и уже активно используются.

Отказы бывают разные…

При разработке и последующей эксплуатации систем с повышенным значением надежности необходимо наличие решений, повышающих вероятность того, что система в момент времени t будет находиться в работоспособном состоянии. Такая вероятность называется доступностью системы.

При выборе и последующей эксплуатации систем на рынке телекоммуникаций и связи, в первую очередь, необходимы: безотказность (свойство системы на протяжении определенного времени работать без отказов) и высокая ремонтопригодность (готовность к работе после возникновения неисправности, которая определяет степень сложности исправления дефекта неисправности/ошибки в системе).

Во многих компания цена построения и внедрения отказоустойчивой/высоконадежной системы может легко соизмеряться с потерями от нескольких часов простоя, или даже минутой бездействия по вине отказа. Например, в телекоммуникационной корпорации AT&T впервые была установлена система высокой надежности (1ESS, Electronic Switching Systems), гарантирующая на момент внедрения системы не более двух часов простоя на протяжении 40-ей эксплуатации (составляет примерно 3 минуты простоя в год). Отказ в 1990 году 4-ого поколении ESS системы (4ESS), послуживший причиной 9 часов простоя 114 телекоммуникационных систем, принес ущерб AT&T в 90 млн. долларов. В тот же день ошибка была найдена и со слов директора отделах технологий Larry Seese корпорации, причиной лавинного отказа 4ESS послужила ошибка в программном обеспечении системы.

Технические решения на транспорте, в авиационной/военной промышленности уделяют первостепенное значение важности построения безопасных систем (систем, исключающих опасный отказ). Это достигается тем, что в перечисленных отраслях, а так же и в областях автоматизации технологических процессов ядерной энергетики, используются высоконадежные безопасные системы с высокими степенями защиты от многочисленных факторов. Эти сложные системы автоматизации, сигнализации, контроля разрабатываются с учетом, так называемого свойства защищенности от воздействия помех, которые могут привести к ложному действию или незапланируемому срабатыванию системы. Иными словами, такие высоконадежные безопасные схемы можно встретить там, где речь идет о сбоях, влекущих за собой, катастрофические последствия.

Облегченная миграция с Oracle: как осуществить переход на новую СУБД быстрей и проще
Импортозамещение

Примером опасного отказа может послужить ложное включение разрешающего сигнала светофора при необходимом запрещающем. Свойство защищенности системы от воздействия помех обычно обеспечивается конструктивными и рабочими параметрами внутренних компонентов системы на элементном уровне, а так же на системном уровне, в частности, на уровне алгоритмов функционирования и взаимодействия.

Элегантным примером следующей характеристики, ремонтопригодности системы, может послужить модульный принцип построения промышленных компьютеров, при котором вышедшие из строя модули, заменяются исправными, без воздействия на другие компоненты.

Разработка отказоустойчивой системы (fault-tolerant system) или отказоустойчивая эксплуатация последней, должны основываться на знании и понимании природы тех видов отказов, вероятность которых, при данных условиях эксплуатации устройства, имеют максимально большую вероятность возникновения.

Техподдержка «Базальт СПО» — гарантия надежной работы вашей ИТ-инфраструктуры
Маркет

По времени воздействия на объект отказы подразделяются на постоянные (permanent fault - однократное воздействие без возможности последующего использования системы), перемежающиеся отказы (intermittent fault - многократное повторение ситуации без взможности определения ее закономерности) и проходные отказы (transient fault - однократный кратковременный отказ без возможности его повторения при рестарте системы).

Важно понять, что отказы могут возникать внезапно (без предварительного ухудшения выходных характеристик), либо заранее прогнозироваться постепенным изменением выходных характеристик. Поэтому для оценки отказоустойчивости новой системы и ее надежности, важен регулярный анализ статистической информации и как следствие анализа, стремление уменьшить влияние определенных неблагоприятных воздействий.