Читать книгу «Эксплуатация ЦОД. Практическое руководство» онлайн полностью📖 — Константин Нагорный — MyBook.
image

Методики оценки

В беседах с персоналом, от руководителей до инженеров (в последнем случае это особенно важно), мы всегда оцениваем три вещи, на которые ориентируются практически все аудиторы. Для оценки используется принцип PDCA: Plan – Do – Check – Act, где:

• PLAN – установлены ли цели, запланированы ли ресурсы, процессы?

• DO – выполняется ли запланированное?

• CHECK — отслеживается и измеряется ли этот процесс? Есть ли понимание, что должно быть на выходе? Как это проверяется и каким способом?

• ACT – есть ли действия по улучшению процесса по выявленным замечаниям?

Применительно к процессу эксплуатации ЦОД приведем простой пример.

Для оценки регулярного технического обслуживания мы проверяем календарь технического обслуживания (выполняем PLAN ), далее смотрим, выполняются ли в сроки задачи ТО, есть ли отложенное обслуживание (выполняем DO ). Каковы результаты выполненного ТО? Есть ли подтверждающие документы? Ведется ли контроль качества выполнения работ? Указано ли это в явном виде (выполняем CHECK )? И далее – смотрим, были ли замечания во время ТО (выполняем ACT ).

Uptime Institute предлагает более сокращенную версию, соответствующую тем же принципам:

• Проактивность. Есть ли совершенствование процессов, процедур?

• Практическое использование. Применяются ли в реальности описываемые в документах процессы, процедуры?

• Информированность. Все ли сотрудники знают о документах, необходимых им для выполнения служебных обязанностей? Знают ли места хранения?

Мы указали примерный и выборочный список вопросов, которые могут быть заданы при оценке ЦОД и ответы на которые будут понятны даже неспециалисту в области эксплуатации ЦОД.

Если вы хотите провести глубокую оценку состояния эксплуатации ЦОД, то можно использовать следующие документы:

• Facility Operations Maturity Model[33] с методологией оценки уровня зрелости процессов – опросник, который в полной мере охватывает деятельность ЦОД. Можно использовать как чек-лист.

• BICSI 009-2019 Datacenter Operations and Maintenance Best Practices (пункт 5.4.3. Datacenter Operations and Maintenance Assessment), менее подробный рекомендательный план для оценки состояния эксплуатации.

• На ресурсе Uptime Institute Inside Track также можно найти материалы для оценки, например Data Center Walkthrough Checklist для быстрой и углубленной оценки соответственно. В кратком виде материалы представлены в общедоступной брошюре Executive Handbook: Risk Management for IT Infrastructure[34].

Если сотрудники уверенно и без подготовки дают ответы на подобные вопросы, то, скорее всего, уровень процессов службы эксплуатации довольно высокий, и эта книга будет лишь инструментом для возможного их улучшения.

В противном случае следует обратить пристальное внимание на организацию работы службы эксплуатации и в дополнение к этой книге для оценки реального состояния привлечь компании, специализирующиеся на организации процессов эксплуатации и обучении персонала. Такое решение поможет вам сэкономить несколько лет непрерывной самостоятельной работы по освоению стандартов и практике их внедрения. В очередной раз напомним, что не стоит недооценивать важность хорошо построенной и организованной службы эксплуатации, ведь в противном случае даже ЦОД уровня Tier IV, в инфраструктуру которого вложены миллиарды рублей, не будет защищен от падений и простоев.

Персонал службы эксплуатации

Качество организации процессов управления персоналом напрямую влияет на надежность ЦОД. Как многократно упоминалось, основной фактор, влияющий на надежность ЦОД, – человеческая ошибка.

В большинстве случаев все эти ошибки – результат недоработок управляющего звена ЦОД (недостаточность персонала, непроработанные сценарии аварий, недостаточность документации, недостаточность знаний персонала, отсутствие тренировок и контроля знаний и т. д.).

За отправную точку при формировании службы эксплуатации принимаются требования действующего законодательства, которые дополняются требованиями различных стандартов и систем сертификаций, уже упомянутых выше. При этом следует помнить о необходимости применять процессы к сотрудникам ЦОД, отвечающим за все критические системы ЦОД, а не только за электроустановки, как того требуют нормы российского законодательства.

Приведем ключевые задачи руководителей и сотрудников службы эксплуатации ЦОД.

Руководитель должен:

• оценить объем предполагаемой сферы деятельности, наметить необходимый объем документации;

• написать обязательные и полные инструкции, процедуры и т. п.;

• ознакомить сотрудников с документацией;

• провести тренировки по этим инструкциям;

• обучить новых сотрудников, не допустить к работе неготовых сотрудников;

• периодически проверять качество подготовки сотрудников;

• создать условия для работы сотрудников, снабдить их инструментом, одеждой, комфортными местами отдыха и приема пищи во время смены;

• обеспечить комфортный график работы без превышения допустимого уровня переработок, чтобы сотрудники выполняли свои задачи качественно;

• установить четкие критерии оценки успешной работы каждого сотрудника и регулярно отслеживать их выполнение.

Сотрудник в созданных ему условиях должен:

• четко знать свои должностные обязанности и полностью выполнять их;

• знать перечень систем, за которые он отвечает, и принципы работы оборудования этих систем;

• знать относящиеся к его сфере деятельности инструкции, процедуры и другие документы;

• неукоснительно следовать инструкциям и процедурам в повседневной деятельности;

• принимать меры по устранению аварийных ситуаций согласно введенным инструкциям и процедурам;

• поддерживать свои знания по документации и оборудованию в актуальном состоянии;

• уделять внимание самостоятельному образованию, повышению уровня знаний и расширению профессионального кругозора.

Необходимая численность персонала ЦОД

Как вы знаете, ЦОД бывают разные: отличающиеся по своим размерам, задачам, требуемым SLA и пр.; следовательно, не существует универсальной формулы для определения численности и состава сотрудников, в каждом случае требуется индивидуальный подход. Тем не менее при формировании команды следует руководствоваться описываемыми ниже принципами.

Достаточность персонала в первую очередь определяется действующими нормами (он не может быть меньше определенной численности), а во-вторых, требованиями различных стандартов, которым предполагается соответствовать. Важно понимать, что у большого количества дежурного персонала и руководителей, занимающихся эксплуатацией, в должностной инструкции (ДИ) может не быть явного указания на системы, за которые они отвечают. В итоге с формальной точки зрения аудитора и проверяющих органов (например, Ростехнадзора) за эти системы никто не отвечает. То есть необходимо распределить и записать все критические системы в ДИ ответственным сотрудникам и их заместителям.

Далее, нужно руководствоваться следующим принципом: для каждой критической системы должны быть определены ответственный за нее руководитель и оперативный персонал.

Один руководитель может отвечать за несколько систем, но у каждого ответственного сотрудника должен быть его дублер, способный выполнить те же обязанности.

Например: главный энергетик, отвечающий за ДГУ, уходит в отпуск, и его замещает другой сотрудник. Это может быть как компетентный руководитель другого направления того же уровня, так и, например, старший электрик, работающий в дневном графике. Такое замещение должно быть записано в ДИ заместителя и отражено в соответствующей схеме заместителей по всем направлениям службы эксплуатации ЦОД.

Чтобы это замещение было максимально эффективным, вам потребуется универсальная система документации (которая будет описана ниже), позволяющая максимально упростить процесс замещения сотрудника, не оставляя без внимания вопросы предварительной подготовки, аттестации знаний и пр.

При определении оптимальной численности персонала необходимо учесть следующие важные моменты:

• Соблюдение численности персонала, требуемой нормами, – это необходимый минимум.

• Достаточность персонала для обеспечения операционной устойчивости – желательный оптимум.

• Нельзя допустить раздувания штата сотрудников и наличия работников, не имеющих постоянных задач большую часть рабочего времени.

• Нужно исключить превышение допустимого уровня переработок. Трудовой кодекс РФ ограничивает допустимый уровень переработки 120 часами в год, а Uptime Institute допускает объем переработок, не превышающий 10 % основного рабочего времени.

Аутсорсинг эксплуатации

Аутсорсинг сейчас очень популярен, и некоторые руководители хотят применить его во всех возможных плоскостях. Следует сразу пояснить, о каком именно аутсорсинге идет речь у нас. Задачу выбора модели технического обслуживания оборудования (Concept of Maintenance) часто путают с моделью эксплуатации (Сoncept of Operations). В первом случае речь идет о функции сервис-инженера, а во втором – о функции дежурного инженера, и это две принципиально разные задачи. Действующая служба эксплуатации ЦОД находится на стыке между ними. Вопрос о выборе концепции технического обслуживания подробно рассмотрен в соответствующей главе.

Uptime Institute уделяет очень большое внимание вопросу выбора между своим персоналом и внешним, наемным исполнителем при построении службы эксплуатации ЦОД; в обучающих материалах этому посвящена целая глава. По факту для территории РФ такой подход не слишком актуален, так как подобных сервисов аутсорсинга очень немного. Все примеры использования внешнего персонала в качестве службы эксплуатации ЦОД – это исключительно аутстаффинг, когда по разным причинам в штате организации – владельца ЦОД нет места для инженерных служб.

Рассмотрим этот вопрос более детально на примере аутсорсинга служб эксплуатации, охраны, уборки ЦОД.

Вспомним основные плюсы аутсорсинга:

• быстрое предоставление персонала требуемой квалификации;

• опыт работы (что актуально при выборе модели эксплуатации с самого начала работы ЦОД);

• легкая замена сотрудника по любой причине, ведь он не у вас в штате, и все проблемы с его увольнением ложатся на компанию, предоставляющую услуги аутсорсинга;

• отсутствие необходимости получать лицензию (например, лицензию частного охранника).

Эти плюсы отлично оправдываются в классических аутсорс-задачах – охране и клининге, а также в службах эксплуатации бизнес-центров, где нет высоких требований к надежности и квалификации персонала (в результате чего, впрочем, на таких объектах существует видимая даже сторонним взглядом неразбериха).

С эксплуатацией критического объекта ЦОД вопрос сложнее:

• Квалификация сотрудника должна быть не на уровне «электрик для замены ламп», а на уровне «электрик для эксплуатации ИБП и ДГУ». Согласитесь, это разные уровни сложности.

• Необходима не только высокая квалификация сотрудника, но и прохождение всех процедур обучения на технологически сложном объекте. В итоге сотрудник не может приступить к работе немедленно, и плюс аутсорсинга относительно опыта работы тут неприменим. Требуется длительное вводное обучение нового, пусть даже и опытного сотрудника. Он должен понять логику документации, узнать проект, запомнить принципы работы ЦОД и его топологию.

• Как было сказано выше, квалификация дежурного персонала и его подготовка на конкретном объекте является ключевым фактором надежности ЦОД. Стоит ли отдавать эту роль в чужие руки? Даже возложив ответственность за отключение клиентов на аутсоринг-компанию, как вы исключите репутационные риски?

• После того как вы нашли сотрудника с требуемой квалификацией и потратили время (примерно месяц) на обучение этого сотрудника, радоваться опции его легкой замены – не лучшая идея. Если сотрудник вам не подходит, он должен быть отсеян на стадии обучения и испытательного срока. Даже если подготовка будет происходить на стороне подрядчика – в любом случае это длительный процесс.

1
...