Спецпроекты

Андрей Хлызов

Андрей Хлызов:
Надежность – всему голова

Сбербанк России планирует сократить время простоя из-за сбоев информационных систем до 52 минут в год и полностью исключить технологические перерывы. Каким образом это будет достигнуто, рассказывает вице-президент банка Андрей Хлызов.

CNews: Расскажите, пожалуйста, о предпосылках запуска программы надежности. Вероятно, причиной ее разработки послужили сбои информационных систем. Действительно ли это так, и насколько критичными они были?

Андрей Хлызов: Действительно, были сбои, но не только и не столько они привели банк к выводу о том, что необходимо открывать программу повышения надежности. Самое главное – это стратегия банка. Банк хочет быть технологическим лидером. А технологический лидер не может позволить простои своих базовых систем не только по причине сбоев, но и из-за технологических перерывов. Если мы хотим стать лидером, мы должны поддерживать тот серьезный рост клиентской активности, который у нас есть.

CNews: Тем не менее сбои в системах Сбербанка случаются достаточно регулярно…

Андрей Хлызов: Мы действительно занялись темой надежности в связи с рядом сбоев в процессинге. Когда начали погружаться в эту тему, поняли, что многое нужно изменить, включая и отношение людей к надежности систем. Я имею в виду отношение бизнеса, разработчиков. Службы сопровождения всегда стояли за надежность. Но этот рубеж обороны прорывал либо некачественный прикладной софт, либо некачественное железо (не буду называть вендоров, но скажу, что с очень многими были проблемы), либо завышенные и порой неразумные требования бизнес-блоков банка. Бывает так, что очень-очень сложный функционал дает маленький эффект с точки зрения бизнеса, зато сильно нагружает ключевые системы. После того как разобрались в процессинге, наша команда пришла к выводу, что прежде всего надо заниматься ключевыми прикладными системами, которые обращены к клиенту. Мы сформулировали главные цели, некое видение наших критических систем.

CNews: Какие системы относятся к числу критичных?

Андрей Хлызов: Мы их выбирали по нескольким критериям. Первый – это должна быть целевая mission critical система. Второй – это система, предоставляющая клиентский сервис (т.е. не бэкофисная). Третий критерий – через эту систему должен проходить значительный поток клиентских операций. Понятно, что это качественные критерии, но тем не менее ряд систем, где поток клиентских транзакций невелик, мы в программу не включили. Четвертый – мы выбрали те системы, которые на тот момент времени требовали изменений, были менее надежны, чем остальные. В то же время программа постоянно расширяется с точки зрения охвата, подключаем все новые системы. В программу входят практически все критичные системы банка.

dsc0366.jpg

Андрей Хлызов: Бывает так, что очень-очень сложный функционал дает маленький эффект с точки зрения бизнеса, зато сильно нагружает ключевые системы

Если говорить про текущий момент, то программа охватывает все системы, которые так или иначе связаны с удаленными каналами обслуживания. Это интернет-банк для частных клиентов, интернет-банк для юридических лиц. Это так называемый мобильный банк (смс-банк). Это процессинг банковских карт и все, что в него входит. Недавно мы включили в программу контактный центр. Кроме того, в программу входят наши базовые системы по обслуживанию частных клиентов и корпоративных клиентов в наших отделениях – «Филиал-Сбербанк» и «Единая корпоративная система» (ЕКС).

CNews: Эти системы у вас единые по всей стране?

Андрей Хлызов: Они будут едиными с 11 января 2015 года. На текущий момент остались два территориальных банка, в которых «Филиал-Сбербанк» не полностью внедрен. Что касается ЕКС, то сейчас она работает в 12 тербанках.

Также в программу надежности входят системы, которые поддерживают расчетно-кассовое обслуживание юридических лиц, входят наш биллинг, так называемый Единый Платежный Сервис, наша кредитная система и «Кредитная фабрика» целиком, ну и еще ряд систем, которые, наверное, не на слуху.

В программу надежности входят абсолютно все уровни инфраструктуры. Это касается центров обработки данных, локальной сети ЦОДов, глобальной сети, это касается и «железа». В общем, все уровни, поддерживающие прикладные системы. И это была принципиальная позиция. Нельзя добиться высокой надежности работы этих систем без надежных центров обработки данных.

CNews: С точки зрения инфраструктуры и архитектуры в целом какие изменения предполагает эта программа? Что вы будете делать для повышения надежности инфраструктуры?

Андрей Хлызов: У нас есть собственный мегаЦОД, резервные ЦОДы – они сейчас арендуются нами. И банк уже начал работы по строительству собственного резервного центра обработки данных в Сколково. Кроме этого, сейчас идет огромный проект модернизации локальной сети ЦОДов. Цель – достичь надежности сети 99,9999%. Это буквально секунды простоя в год. Также решаются вопросы по безопасности, по сегментированию сети. Но главное – это надежность в данном случае. Что касается глобальных сетей, в рамках программы идет расширение и резервирование каналов и узлов связи до наших отделений, до точек обслуживания. Это большая активность, совместная с бизнесом.

CNews: Каналы до офисов вы арендуете?

Андрей Хлызов: Да, арендуем. Также мы арендуем дополнительные резервные каналы для наших головных отделений, расположенных в областных центрах. Фактически там у нас реализуется своего рода кольцо. Мы можем «ходить», к примеру, в Саратов напрямик, а можем «пройти» через Самару, где расположен наш территориальный банк. Более того, до Самары у нас есть и основной, и резервный канал. Таким образом, если у нас откажут каналы до Самары, мы сможем «ходить» через Саратов. Также в рамках программы будут зарезервированы узлы связи.

dsc0404.jpg

Андрей Хлызов: Мы фактически втрое сократили время простоя из-за инцидентов и вчетверо – количество сбоев

Теперь про архитектуру прикладных систем. Мы поставили перед собой задачу, чтобы системы работали в режиме «7 на 24» и доступность была на уровне 99,99%. То есть было бы не более 52 минут простоя за год, включая технологические перерывы. Это реализуется самыми разными технологиями. В частности, создается двукратный запас производительности, когда одновременно, условно говоря, работают две «железки» в центрах обработки данных. В случае инцидента на одной из них активизируется вторая. Таким образом, вырабатывается полный поток транзакций. Либо не полный, но тогда он должен быть регулируемым. Условно, все бизнес-транзакции обрабатываются, а информационные, например, нет.

Кроме того, мы создаем несколько Stand In (дублеров системы). Это экземпляр прикладной системы с ограниченной функциональностью, который мы включаем в случае сбоя либо технологического перерыва. Кстати, именно это произошло в ночь с воскресенья на понедельник (С 10 на 11 августа 2014 г. – Прим. CNews). По причине технологических работ более 5 часов наша основная процессинговая система стояла под прикрытием дублера, который принимал клиентские транзакции. И после того как мы закончили технологические работы на основной системе, все транзакции с дублера были переданы в основную систему. Процесс прямого и обратного переключения занял около 35 секунд. Мы эту технологию реализуем для очень многих систем.

Например, у нас есть два экземпляра интернет-банка для частных клиентов и два – по юридическим лицам. Это требовало дополнительных доработок систем, поскольку они изначально не планировались таковыми. А модуль аутентификации клиентов, напротив, должен быть единым. Вот некоторые примеры той работы по изменению архитектуры, которая идет с целью достижения тех самых показателей надежности, о которых я говорил.

CNews: Какие организационные и управленческие изменения вводятся для повышения надежности?

Андрей Хлызов: Программа идет уже год, и, по моим представлениям, уже многое поменялось. У нас есть система перфоманс-менеджмента, идущая с самого верха. Президент банка Герман Греф устанавливает ключевые показатели эффективности и приоритетные проекты для членов правления. Они, соответственно, устанавливают такие показатели и проекты для своих подчиненных и т.д. Приоритетность надежности идет с самого верха. Например, у меня на текущий момент 65% бонуса зависят от надежности автоматизированных систем банка. Есть некие ключевые показатели времени простоя. Если говорить про службу сопровождения или поддержки, то у них эти показатели тоже большие, зачастую больше, чем у меня. Такой же показатель есть у разработчиков. Он несколько меньше, потому что там большая составляющая часть – это развитие функционала, бизнеса.

dsc0384.jpg

Андрей Хлызов: Мы поставили перед собой задачу, чтобы системы работали в режиме «7 на 24» и доступность была на уровне 99,99%

Тут также важно сказать о том, что была цель, без которой вообще ничего бы не случилось – это формирование культуры надежности в банке. Год назад такого понимания не было даже на уровне «члены правления минус один», в том числе и в ИТ-блоке. Суть культуры надежности заключается в том, чтобы человек, который вносит любые изменения, помнил заповедь «не навреди»: не навреди банку, не «урони» ничего. Ведь не секрет, что ряд сбоев был связан с человеческим фактором. Люди ошибаются, непродуманные действия приводят к очень серьезным остановкам. Самый главный результат программы, по моим представлениям, – это то, что культура надежности и подход к надежности, как к самому важному в банке, сейчас появились практически у каждого сотрудника.

CNews: У разработчиков также есть мотивация, связанная с надежностью?

Андрей Хлызов: Безусловно. Она направлена и на качество софта, и на количество ошибок. Это управленческие аспекты. Если говорить про организационные, то в банке создана система управления программой. У программы есть управляющий комитет. Спонсорство программы вообще на уровне президента и правления банка. То есть я два раза в год отчитываюсь перед правлением о том, что сделано, что не сделано. В управляющем комитете у нас исключительно члены правления. Это очень высокий уровень. Кроме того, создана дирекция надежности как организационная единица. Это фактически офис управления данной программой, которым руководит Сергей Краснов.

CNews: Сколько денег было выделено на эту программу в прошлом году и в этом году? Панируется ли увеличение бюджета в дальнейшем?

Андрей Хлызов: Если говорить про проектный бюджет банка, то 25% этого проектного бюджета – это программа надежности. Вряд ли доля будет увеличиваться, потому что все-таки первый год – был затратный с точки зрения железа. Еще одна большая статья затрат – это модернизация сети. Я думаю, пропорции будут примерно сохраняться, потому что надежность, конечно, вещь важная, но и бизнесу необходимо развиваться. Поэтому каждый раз, когда мы делаем или не делаем эту работу в части надежности, мы обсуждаем это с бизнесом.

CNews: Вы говорите, что программа реализуется уже год. Можно ли привести для сравнения какие-либо цифры – результаты этой программы? Насколько, грубо говоря, снизилось количество сбоев, время простоя?

Андрей Хлызов: Мы фактически втрое сократили время простоя из-за инцидентов и вчетверо – количество сбоев. Значительно сократилось время технологических перерывов, которые, впрочем, пока есть. Со временем, через 2 года, их не будет вообще.

CNews: Вы свой бонус полностью получили?

Андрей Хлызов: Хороший вопрос. Знаете, я получил правильный бонус.

CNews: То есть правильно сокращенный?

Андрей Хлызов: Ну, смотрите, если говорить про совсем формальные вещи, ключевой показатель эффективности по надежности систем ИТ-блок сейчас регулярно перевыполняет. Это значит, что мы работаем лучше, чем предусмотрено планом. И в связи с этим эта часть бонуса была даже больше, чем изначально планировалось. Что касается реализации программы, то в прошлом году было выполнено все. В этом году, к сожалению, мы одну из задач пока не выполнили.

CNews: Что именно не выполнили?

Андрей Хлызов: У нас есть большая история по повышению производительности. В частности, мы занимаемся внедрением процессинговой платформы Way4 на Real Application Clusters. За счет этого мы ожидаем увеличения производительности в 1,5–1,7 раза. Эту задачу мы не выполнили по срокам, но уже близки к выполнению.

Вернуться на главную страницу обзора