четверг, 20 мая 2010 г.
Миф 3: справиться с инцидентом в жизни проще, чем во время тестирования
Это заблуждение обычно возникает во время проведения учений по кризисному управлению, когда участники не лучшим образом справляются со своими задачами и стараются переложить ответственность на ведущего. Очевидно, сами учения проходят в атмосфере искусственности, но снова и снова люди поддаются ощущению, что ведущий намеренно все усложняет. Особенно часто они считают, что во время реального инцидента информации будет больше, и она будет более точной.
Без сомнения, во время инцидента будет поступать масса информации, но, в отличие от того, как это происходит во время учений, она будет поступать в непредсказуемые моменты времени, из множества различных источников, и большая ее часть будет по дороге искажаться, обрастать вымышленными подробностями или, наоборот, утрачивать важные детали. В качестве примера можно привести недавнее крушение самолета Ту-154 с руководителями Польши на борту. Сколько человек было в самолете? Разные источники приводят разные данные:87, 96 или 132? Сколько раз заходил на посадку самолет — 1 или 4? Знали ли российские авиадиспетчеры английский язык, а польские пилоты русский или нет? Большое количество поступающей информации не будет относиться к делу и просто создаст информационный шум, значительная ее часть будет неточна или расплывчата, а разные источники часто будут противоречить друг другу. Эти соображения хорошо известны, особенно людям, имеющим опыт управления в условиях реального инцидента, так почему же так живуч этот миф?
На самом деле здесь проявляется так называемая «ошибка при взгляде в прошлое». Когда нам становятся доступны факты, становится очень трудно точно вспомнить, как выглядели обстоятельства до того, как они стали нам известны. В частности, когда становится известен итог, мы забываем, сколько неопределенности существовало по поводу того, как будут развиваться события. Таким образом, даже люди, имевшие дело с реальным кризисом, склонны забывать, в условиях какой большой неопределенности им приходилось действовать на ранних стадиях инцидента, и приходить к заключению, что они заранее знали, что события обернутся именно так, как все в итоге и случилось.
(По материалам статьи «The nature of crises: exploring some persistent myths», Patrick Roberts)
четверг, 13 мая 2010 г.
Тестирование мер ОНиВД
Недавно принимал участие в учениях, которые проводила одна крупная (с числом сотрудников более 1000 человек) организация. Это упражнение проводилось уже не первый раз. Надо отдать должное этой компании — они подходят к такому важному мероприятию в высшей степени правильно. Что я подразумеваю под этими словами?
- С одной стороны у инициаторов нет склонности к гигантомании в том смысле, что рамки учений охватывают не всю организацию.
- С другой стороны учения были достаточно масштабными. Они охватывали около 30 ИТ-сервисов.
Если оглянуться назад, то сложится следующая картина. Подготовка ИТ-инфраструктуры заняла около года. Еще около трех месяцев ушло на то, чтобы написать планы аварийного восстановления (DR планы), что завершилось первым масштабным тестированием. Обращаю внимание читателей на то, что в первый раз тестировалась лишь слаженность технического восстановления, т.е. о непрерывности бизнеса речь не шла. В ходе учений был выявлен ряд недостатков. Причем именно благодаря тому, что эти недочеты были выявлены, прошедшее тестирование следует считать успешным. И лишь спустя еще полгода было проведено тестирование с участием бизнес-подразделений. Как и следовало ожидать, результаты тестирования ИТ-инфраструктуры в этот раз были значительно лучше, чем в предыдущий, и с большим запасом перекрыли установленные бизнесом нормативы. Что же касается тестирования бизнес-процесса, то при его восстановлении возник ряд проблем. Например:
- Не оказалось ключей для работы с ПО на резервном рабочем месте;
- У ряда пользователей на резервных рабочих местах оказалось недостаточно прав доступа для работы с некоторыми директориями;
- Неверными оказались выданные пользователям пароли для работы на резервных местах.
Какие полезные для всех выводы можно сделать?
- При проведении тестирования не стоит рассчитывать, что сразу все пройдет гладко. Предусмотрите время для исправления обнаруженных проблем или поиска обходных путей.
- Более того, чем больше недочетов и проблем будет выявлено в ходе тестирования, тем успешнее следует считать тестирование, и тем выше вероятность того, что в случае реальной ЧС восстановиться удастся в установленные сроки.
- В первый раз не стоит тестировать сразу все. И во второй раз тоже. И даже в третий раз тестировать восстановление деятельности всей организации не кажется разумной идеей даже если у вас написаны все планы. Лучше двигаться медленно, постепенно включая в рамки тестирования все новые сервисы, процессы и подразделения.
P.S. Следующее тестирование в этой организации намечено через 4 месяца…
Подписаться на:
Сообщения (Atom)