Pull to refresh
0
King Servers
Хостинг-провайдер «King Servers»

DRP-план в ИТ-компании и проверка его работоспособности

Reading time 4 min
Views 14K
Проводим проверку работоспособности плана восстановления после аварии.



Все мы хотим надеяться, что ничего подобного никогда не произойдет.

У большинства предприятий есть (ну, или хотя бы должен быть) план восстановления после аварии. Аналогичный план должен быть у оператора дата-центра. Любой из подобных объектов подвержен влиянию внешних факторов — полностью исключить вариант аварии нельзя. Даже, казалось бы, самые защищенные объекты могут все же попасть в очень неприятную ситуацию, о чем мы как-то уже писали.

Соответственно, DRP-план (disaster-recovery plan) должен помочь компании быстро выйти на предшествующий аварии рабочий уровень. Обычно в таком плане описываются действия сотрудников в случае аварии. При составлении такого плана цель обычно — сведение к минимуму последствий аварии с обеспечением возможности вернуть контроль над решением критически важных задач, используя заранее определенные ресурсы. Но план — планом, а будет ли он работать? Для проверки этого стоит провести «учебную тревогу».

Дата-центры содержат массу чувствительного к внешним факторам оборудования, которое, в свою очередь, работает с огромными объемами данных, которые могут быть очень ценными. Недавним примером того, к чему может привести даже небольшая авария, служит отмена большинства рейсов авиакомпании Delta Airlines.

Скорее всего, у такой огромной компании был собственный DRP-план. Возможно, в нем были неучтенные моменты, из-за чего пострадали и сама компания, и ее клиенты. И в самом деле, просто план и возможность его быстрой реализации — это разные вещи.

Любая компания, а тем более, ИТ-компания должна учитывать инфраструктуру, людей и процессы при составлении своего собственного плана восстановления после аварии (будь то землетрясение, пожар или человеческий фактор).

Как часто нужно проводить «учебные тревоги»?


Собственно, ответить здесь сложно — у каждой компании уникальная ситуация, которая не дает возможности унифицировать как DRP-план, так и его выполнения. Тем не менее, в любой момент времени руководитель компании должен быть уверен в том, что план отвечает текущей ситуации и может быть реализован. Пересматривать DRP-план стоит после каждого крупного изменения инфраструктуры. А «тревоги» можно проводить раз в месяц или раз в год — все зависит от того, как часто компания меняется.

Эксперты рекомендуют проводить проверку не реже раза в год.

Готовимся


Прежде, чем компания начнет проверять реалистичность и работоспособность своего плана, нужно быть уверенным в его результатах. Убедитесь в том, что обязанности всех сотрудников распределены рационально и корректно. Нельзя допускать того, чтобы у каких-то сотрудников обязанностей не было вообще, а у кого-то их была бы масса, и этот человек (или люди) были, фактически, незаменимыми.

Катастрофа на то и катастрофа, что кто-то из сотрудников может оказаться недоступным и если это будет ключевой человек, то весь план может пойти под откос. Все инструкции и правила должны быть четкими и понятным. Во время проверки плана нужно внимательно следить за ходом реализации DRP-плана.

Каждая деталь проверяемого плана должна быть зафиксирована, с учетом всех возникших проблем и сложностей. Проверку необходимо проводить с привязкой по времени, отслеживая, сколько времени уйдет на решение той либо иной проблемы и реализацию любого этапа. Руководство компании и отдельные сотрудники должны знать, что произойдет, если оборудование и сервисы ИТ-компании простоят определенное время. Как это повлияет на операции, клиентов и доход?

Как тестировать


1. Проверка плана
Это чисто теоретический этап, который почти никогда не включает в себя полноценные «учения». Пересматривать план на соответствие его текущей ситуации в компании и обстановке вокруг нужно несколько раз в год.

Кстати, у DRP должен быть управляющий комитет. В него обычно входят компетентные сотрудники, часто — топ-менеджеры. Кроме того, для работы необходимо привлекать и экспертов, которые могут очень помочь на пути к планированию спасения от катастрофы.

2. Проверка без тревоги
На этом этапе необходимо проверить знания всех сотрудников, кто, по плану, должен участвовать в процессе ликвидации последствий катастрофы. Каждого из сотрудников необходимо опросить на предмет его обязанностей и их выполнения в случае возникновения той либо иной непредвиденной ситуации.

Если ничего подобного не проводить, то сотрудники не будут слишком серьезно относиться к вашему плану. Кто-то что-то обязательно забудет, не так поймет или и вовсе решит не принимать участия. Чтобы не допустить значительное влияние «человеческого фактор» на последствия катастрофы, и нужно проводить такую проверку плана. Все сложности, недопонимание сотрудников, отсутствие ясности в синхронности действий — все это необходимо фиксировать и исправлять.

3. Полномасштабный тест
Это действительно полевые учения, их нужно максимально приблизить к возможному развитию ситуации в случае катастрофы. Результат должен быть ощутим. Оператор дата-центра должен учитывать то, насколько негативно на работе компании может отразиться значительный вынужденный простой оборудования.

Некоторые компании предпочитают скрывать информацию о том, что «учения» ненастоящие, от рядовых сотрудников. Дело в том, что это позволяет добиться от них скорости реакции и действий, максимально приближенным к реальности.

На этом этапе придется использовать ресурсы компании, включая время, оборудование и средства. Результатом должно быть возвращение во внятные сроки «поврежденного» оборудования с быстрой адаптацией работников компании к ситуации.

Что, если что-то пойдет не так?


Это, скорее всего, произойдет в той либо иной степени. Главное — стоит помнить, что гладко проверка такого уровня на все 100% пройти не может. Какие-то ошибки сотрудников и вмешательство неожиданных факторов обязательно повлияют на реализацию плана.

После завершения тестирования вся информация должна быть распределена между сотрудниками компании. Причем некоторые вещи стоит сообщать только тем, кто с ними связан. В идеале, тестировать DRP стоит тогда, когда в компании что-то сильно меняется.

И уже после теста все полученные результаты нужно использовать во благо собственной компании. В целом, поддержание сотрудников и всей компании в готовности к чрезвычайно ситуации — это критично. Работать с планом (модифицировать и дорабатывать его) нужно каждые несколько месяцев. Специалисты рекомендуют делать это раз или два в квартал. Но, конечно. Все зависит от самой компании и ее сотрудников.



Проверять работу плана нужно с разными сценариями и ситуациями. Только в том случае, если сотрудники готовы к катастрофе, компания сможет быстро восстановить работу после сбоя. В противном случае, бизнес такой компании может очень сильно пострадать.

Кстати, интересно было бы узнать, подготовлена ли ваша компания к подобным проблемам, и если да, то как вы проверяете работоспособность составленного плана, и какие у него есть особенности?
Tags:
Hubs:
+10
Comments 2
Comments Comments 2

Articles

Information

Website
king-servers.com
Registered
Founded
Employees
11–30 employees
Location
Россия