Читать книгу «ИТ-архитектура от А до Я: Шаблоны документов. Первое издание» онлайн полностью📖 — Вадима Алджанова — MyBook.
image

План Восстановления после сбоя

Плана Восстановления после Сбоя (Disaster Recovery Plan). Представляет из себя план восстановления инфраструктуры компании после возникновения аварии, частичной или полной потери ИТ сервиса или его компонентов. Фокусирует свое внимание на воздействиях и их влияние на комплексную ИТ инфраструктуру и бизнес процессы организации. План определяет порядок, сценарии и правила реагирования при возникновении чрезвычайных ситуаций, таких как пожар, наводнение, землетрясение и т п. Как правило, содержит наиболее возможные сценарии чрезвычайных ситуаций и реакцию на них. План должен состоять как минимум из четырех компонентов:

•Сценарии – перечень предполагаемых чрезвычайных ситуаций.

•Реагирование на чрезвычайные ситуации – определяет последовательность действий, которые необходимо осуществить при обнаружении инцидента.

•Управление инцидентами – определяет методы, необходимые для смягчения или уменьшения размера происшествия.

•Восстановление деятельности – определяет последовательность действий, которые необходимо осуществить для того, чтобы восстановить сервис на заданном уровне.

ОБЩИЕ ПОЛОЖЕНИЯ

Данный документ определяет План Восстановления после Сбоев (Disaster Recovery Plan DRP) в организации. Документ является высокоуровневым, стратегическим руководящим документом. Документ должен соответствовать следующим требованиям:

•Действующему законодательству и иными правовыми актам;

•Требованиям контролирующих органов;

•Уставу организации;

•Уставу ИТ департамента;

•Внутренним регламентирующими документами;

•Рекомендациям практик и стандартов принятых в отрасли;

•Рекомендациям практик и стандартов принятых в ИТ сфере;

ПРИНЯТЫЕ СОКРАЩЕНИЯ И ОПРЕДЕЛЕНИЯ

•Владелец сервиса (service owner) – роль или структурное подразделение организации, который занимается постановкой целей, принимает решения и управляет финансированием по сервису.

•Менеджер сервиса (service manager) – роль или структурное подразделение организации, который занимается выполнением целей и задач, поставленных владельцем сервиса, обеспечивает развертывание и сопровождение сервиса.

•Уровень воздействия (impact) – границы воздействия инцидента на функционирование сервиса. Может определяться как степенью отказа сервиса (частичный, полный), так и уровнем охвата пользователей (один сотрудник, группа сотрудников и т п). Является составляющей, определяющей приоритет инцидента.

•Уровень срочности (urgency) – степень, определяющая срочность разрешения инцидента. Является составляющей, определяющей приоритет инцидента.

•Приоритет (priority) – определяет важность инцидента и порядок его разрешения.

Обходное решение (work around) – действия, позволяющие временно или постоянно устранить инцидент или его причины.

ЦЕЛИ ДОКУМЕНТА

Внесения ясность в организацию процесса управления непрерывностью бизнеса и ИТ сервисов при воздействии внешних факторов. Цели документа:

•Формирование концепции, принципов и организации процесса реагирования на сбой и аварии для обеспечения непрерывности бизнеса в организации;

•Повышение эффективности взаимодействия ИТ и бизнеса;

В документе делается попытка определить наиболее вероятные причины прерывания бизнеса и порядок реагирования в каждом сценарии. План разработан путем анализа того, что прерывается, а не почему. Например, головной офис здания может быть недоступен по многим причинам, но, нас интересует прежде всего, влияния на деятельность организации недоступности здания, а не причины произошедшего (забастовка сотрудников, аварии и т.д.). Очевидно, что организация будет управлять каждым случаем по-разному, в зависимости от причины, но для наших более конкретных целей, здание просто недоступно. План непрерывности бизнеса и аварийного восстановления тесно связан с процедурами и системами резервного копирования.

СФЕРА ДЕЙСТВИЯ ДОКУМЕНТА

Действия данного документа распространяется на все аспекты деятельности организации затрагиваемых процессом управления непрерывностью бизнеса и ИТ сервисов.

АУДИТОРИЯ

Документ является высокоуровневым руководящим документом и предназначен для ознакомления и соблюдения со стороны всех сотрудников организации.

ОРГАНИЗАЦИЯ РАБОТЫ С ДОКУМЕНТОМ

Документ утверждается решением ИТ комитета и является обязательным для исполнения и соблюдения всеми подразделениями организации. Процедура принятия документа, внесения изменений определены в процедуре «Процедура организации, руководящей ИТ документации».

ЦЕЛИ ПРОЦЕССА

Основные цели можно определить, как:

•Своевременное реагирование;

•Скорейшее восстановление;

•Формирование процесса реагирования на катастрофы;

•Определение процедур, стандартов и метрик;

•Обеспечение прозрачности функционирования ИТ;

•Снижение негативного влияния сбоев на бизнес;

•Рациональное использование ИТ ресурсов

•Повышения удовлетворенности бизнеса и сотрудников;

•Снижение убытков, связанных со сбоями;

•Сокращение времени простоя бизнеса;

•Сокращение времени восстановления бизнеса;

ЗАДАЧИ ПРОЦЕССА

Можно определить следующие задачи :

•Организация процесса;

•Классификация воздействий и сбоев;

•Определение метрик и показателей;

•Определение обязанностей и уровня вовлеченности сотрудников;

•Организации деятельности по своевременному обнаружению;

•Формирование Плана Восстановления после сбоя;

•Формирование сценариев чрезвычайных ситуаций;

•Организации деятельности по устранению сбоев;

•Организации деятельности по устранению последствий;

•Организация деятельности по восстановлению бизнеса;

•Организации деятельности по расследованию причин сбоя;

•Организации деятельности по коммуникации;

•Организации деятельности по реагированию;

•Организации взаимодействия с другими процессами;

•Оптимизация процесса восстановления после сбоя;

•Организация сценариев тестирования;

ПРОЦЕСС ВОССТАНОВЛЕНИЯ ПОСЛЕ СБОЕВ

План восстановления после сбоя представляет из себя различные сценарии, которые могут привести к значительным негативным воздействиям на бизнес. Сценарии описываются набором метрик и значений, представленных в таблице.

Атрибуты и метрики сценариев


Основные принципы можно охарактеризовать как:

•Для каждого ИТ сервиса на этапе проектирования должен быть определен механизм непрерывности сервиса;

•Для каждого ИТ сервиса на этапе сопровождения должен быть разработан план обеспечения непрерывности сервиса;

•Для каждого бизнес процесса должны быть разработаны «резервный» и «аварийный» планы;

•Процедуры восстановления и метрики должны быть описаны;

•Ответственные сотрудники обязаны незамедлительно реагировать для обеспечения непрерывности или восстановления;

•Должно проводиться тестирование плана;


СЦЕНАРИЙ №1 «Воздействие стихийных бедствий»

•Описание Риска: Потеря здания головного офиса;

•Вероятность события: Низкая;

•Вероятный причины: Пожар, землетрясение, наводнение и т п;

•Влияние: Очень высокое;

•Затронутые функции: Вся деятельность бизнеса;

•Оценка рисков: Высокая;

•Место сбора: Сотрудники головной офис собираются в филиале «Филиал №1»;

•Смягчение последствий: Предопределенные и испытанные политики, процедуры и план действий на местах;

•Команда восстановления: Комитет по реагированию на Чрезвычайные Ситуации (Кризисный Комитет), Группы реагирования от каждой бизнес функции, ИТ, Безопасности;


Цели команд восстановления:

•Этап восстановления №1 т.е. восстановить минимальный уровень обслуживания в течении 24 часов;

•Этап восстановления №2 – восстановление полного уровня обслуживание всех бизнес функций в течении 72 часов;


Функции и обязанности групп восстановления:

•Кризисный Комитет – Принятие решения по переходу на резервный план, выполнение плана восстановления, и принятие решений по дальнейшему управлению, в полоть до полного восстановления;

Группы реагирования от каждой бизнес функции – выполнение работ по переходу на резервный план и восстановлению операций.


План действий: <детальное описание>

Заключение и рекомендации: <детальное описание>


ПРОЦЕСС ТЕСТИРОВАНИЯ

Тестирование осуществляется для проверки работоспособности планов при возникновении определенного набора обстоятельств, влияющих на деятельность компании. План тестирования выбирается с учетом типа компании и ее целей. Цели тестирования:

•Получение подтверждений работоспособности планов;

•Проверка достаточности методического и технического обеспечения;

•Получение необходимых навыков и знаний;


После того как была определена цель тестирования, разрабатывается сценарий, определяется метод тестирования и согласовывается с руководством. Чаще всего применяются следующие методы:

•Настольная проверка (Tabletop);

•Имитация (Imitation);

•Полное тестирование (Full business continuity testing);


После проведения тестирования составляются отчеты, в которых указываются сценарии и результаты тестирования, а также предложения по улучшению планов непрерывности деятельности.


Обслуживание и обновление планов

Как уже отмечалось выше, управление непрерывностью бизнеса компании является циклическим процессом. А это значит, что нельзя ограничиваться одним только формированием планов, необходимо сопровождать, обновлять и совершенствовать их ежегодно, а иногда и чаще, например, в следующих случаях:

•Изменение ИТ инфраструктуры;

•Изменение организационной структуры компании;

•Изменения в законодательстве;

•Обнаружение недостатков в планах при их тестировании;


Чтобы сохранить актуальность планов, необходимо выполнять следующие действия:

•Проводить внутренние аудиты, включающие проверку восстановления после аварий, документации по обеспечению непрерывности и соответствующих процедур;

•Проводить регулярные теоретические и практические тренинги для сотрудников организации, по выполнению плана;

•Интегрировать вопросы непрерывности бизнеса в процесс управления изменениями компании;


МЕТРИКИ ПРОЦЕССА

Для обеспечения высокого уровня функционирования процесса управления непрерывностью бизнеса необходимо обеспечить мониторинг состояния следующих метрик и активности процесса:

•Адекватность действий по восстановлению;

•Время восстановления в рамках регламента;


РОЛИ И ОТВЕТСТВЕННОСТИ

В соответствии с организационной структурой организации и ИТ департамента в частности, определены следующие роли и ответственности:


ВЛИЯНИЕ ПРИ ОТСУТСТВИИ ПЛАНА

Отсутствие процесса восстановления после сбоя может привести к следующим негативным воздействиям:

•Хаотичный порядок реагирования ИТ;

•Хаотичный порядок реагирования сотрудников;

•Отсутствие прозрачности функционирования ИТ и бизнеса;

•Не эффективное использование ИТ ресурсов;

•Финансовые и репутационные потери для бизнеса;


РИСКИ ПРИ ВНЕДРЕНИИ И СОПРОВОЖДЕНИИ

При внедрении в организации могут возникнуть риски, приводящие к неудачному внедрению процесса, или не эффективному его функционированию. Данные риски можно охарактеризовать как:

•Отсутствие поддержки со стороны руководства организации;

•Недостаточный уровень готовности организации и сотрудников;

•Отсутствие необходимых ресурсов, для внедрения процесса;

•Недостатки и ограничения бизнес процессов;

•Нехватка знаний и навыков у специалистов ИТ департамента;

•Недостатки и ограничения информационных системы;

•Недостатки и ограничения сопутствующей ИТ инфраструктуры;


КЛЮЧЕВЫЕ ФАКТОРЫ УСПЕХА ВНЕДРЕНИЯ ПРОЦЕССА

Ключевые факторы успеха:

•Пристальное внимание к процессу;

•Реалистичные цели;

•Оптимальные бизнес процессы;

•Наличие измеряемых метрик и показателей;

•Высокий уровень квалификации сотрудников ИТ;

•Приемлемый уровень осведомленности сотрудников;


ПОКАЗАТЕЛИ ЭФФЕКТИВНОСТИ И КРИТЕРИИ ОЦЕНКИ

Критериями оценки деятельности являются:

•Снижение времени недоступности ИТ для бизнеса;

•Снижение времени восстановления ИТ сервиса;

•Отсутствие претензий со стороны сотрудников;

•Отсутствие претензий со стороны контролирующих органов;

•Удовлетворенность руководства организации;


СВЯЗАННЫЕ ДОКУМЕНТЫ

Действия данного документа дополняется или является основополагающим для следующих ИТ документов:

•Политика, Стандарты и Процедура «Управления Инцидентами»;

•Политика, Стандарты и Процедура «Управления Проблемами»;

•Политика, Стандарты и Процедура «Управления Изменениями»;

•Политика, Стандарты и Процедура «Резервного Копирования»;

•Детальная Архитектура по всем ИТ сервисам;

•Политика и план «Управления Непрерывностью Бизнеса»;

•Рекомендации стандарта ISO 22301 «Business Continuity»;

•Рекомендации стандарта ISO 20000 «IT Service Management»;

•Рекомендации стандартов ISO 27000 «Information Security»;


Контроль документа: [•Номер документа: •Наименование документа: •Статус документа: •Маркер безопасности: •Дата утверждения: •Дата вступления в силу: •Протокол ИТ комитета: •Заменяет документ: •Документ разработан: •Дата разработки: •Документ одобрен: •Дата одобрения: •Утвержден: •Дата утверждения: ]

Контроль версии документа: [•Версия документа: •Дата внесения изменений: •Автор: • Содержание изменений: ]

1
...