Читать книгу «Эксплуатация ЦОД. Практическое руководство» онлайн полностью📖 — Константин Нагорный — MyBook.
image

Резервирование систем

При проектировании, построении и дальнейшей эксплуатации ЦОД очень важную роль играет резервирование оборудования. Резервирование является ключевым фактором в обеспечении надежности систем и дает возможность непрерывной эксплуатации ЦОД при проведении необходимых работ по техническому обслуживанию оборудования. Поскольку мы будем часто обращаться к этому понятию по мере изложения, давайте рассмотрим подробнее, что такое резервирование и каковы те схемы резервирования, которые применяются при построении инженерных систем.

ГОСТ Р 27.102–2021 «Надежность в технике. Надежность объекта. Термины и определения» формулирует термин «резервирование» как «способ обеспечения надежности объекта за счет использования дополнительных средств и/или возможностей сверх минимально необходимых для выполнения требуемых функций». Как следует из определения, резервирование предполагает избыточность компонентов системы, позволяющую использовать эти избыточные компоненты при отказе какого-либо базового компонента без прерывания работы системы в целом. Таким образом, базовая модель резервирования может описываться формулой N + R, где N[30] обозначает число элементов, необходимых для нормальной работы, а R[31] – число дополнительных избыточных компонентов. Такое резервирование часто называют резервированием на уровне компонентов. Простейшей и наиболее распространенной схемой резервирования[32] является N + 1, однако встречаются варианты N + 2 или с большим числом элементов R.

Несмотря на очевидную простоту и эффективность резервирования по схеме N + R, ее не всегда бывает достаточно для обеспечения необходимого уровня надежности. Существуют системы, где, несмотря на избыточность отдельных компонентов, сохраняются единые точки отказа, являющиеся уязвимым местом системы в целом. В качестве примера можно привести систему бесперебойного электропитания из нескольких ИБП с общим байпасом. Для устранения рисков выхода таких систем из строя применяют резервирование более высокого уровня – не на уровне компонентов, а на уровне систем. На практике это означает установку двух (или более) идентичных взаиморезервирующих систем, а само резервирование в таком случае обозначают формулой ХN, где N – система из N компонентов, а Х – число таких систем. Наиболее частой схемой резервирования такого рода является 2N, где устанавливаются две идентичные системы. Такая схема резервирования является сравнительно дорогой (фактически необходимо приобрести удвоенное количество оборудования), однако именно она позволяет обеспечить для ИТ-нагрузки два независимых ввода питания и/или контура охлаждения, что необходимо для безостановочной работы ИТ-оборудования и, следовательно, непрерывной работы сервисов, предоставляемых ЦОД.

Зачастую используется комбинация двух оговоренных выше схем резервирования – и на уровне систем, и на уровне компонентов. В этом случае формула приобретает вид X(N + R). Сравнительно популярной схемой такого рода является 2(N + 1), широко применявшаяся в первом десятилетии XXI в.; сегодня ее можно встретить все реже, что обусловлено высокой стоимостью ее реализации.

Выше мы отметили, что резервирование XN (обычно 2N) позволяет обеспечить для нагрузки независимые линии электропитания. Данное преимущество имеет обратную сторону в виде удвоенной стоимости системы электропитания. Для сохранения возможности обеспечения двух независимых линий электропитания нагрузки и при этом снижения вложений в систему электропитания в последние годы все чаще используются дробные схемы резервирования, которые можно выразить в формате (X/Y)N. В этом случае X означает число установленных элементов в системе, а Y – число групп нагрузок, подключенных к каждому из элементов. Иными словами, суть построения таких систем заключается в сегментировании нагрузки и применении элементов меньшей мощности, нежели в случае резервирования 2N. Поясним это на примере систем ИБП на схемах ниже.

Отношение мощности ИБП к мощности нагрузки можно понимать как коэффициент загрузки оборудования. Чем меньше это соотношение, тем эффективнее загрузка. То есть при резервировании 2N загрузка оборудования составляет 50 %, при резервировании (3/2)N – 66,7 %, а при резервировании (4/3)N – 75 %.

Как можно заметить, во всех приведенных случаях каждая группа нагрузок получает электропитание от двух независимых линий, однако при этом уровень затрат на систему электропитания снижается за счет установки менее мощных (и, следовательно, более дешевых) устройств и понижения общего уровня установленной мощности системы электропитания.

При построении систем с дробным уровнем резервирования усложняется система кабельной разводки, увеличивается объем необходимых материалов и работ. Также схемы, отражающие работу подобных систем, менее наглядны для персонала и трудны для понимания, что увеличивает риск человеческой ошибки. Однако стоимость систем при низких уровнях дробного резервирования все равно сравнительно невелика. Предел рациональности при построении систем с дробным резервированием достигается на уровне (6/5)N; более сложные уровни резервирования перестают быть привлекательными как в силу значительного усложнения систем, так и в силу потери экономических преимуществ.

Рис. 3. Резервирование 2N


Рис. 4. Резервирование (3/2)N


Рис. 5. Резервирование (4/3) N

Оценка текущего уровня процессов службы эксплуатации. Чек-лист для проверки ЦОД

Как руководителю определить текущий уровень процессов службы эксплуатации своего предприятия? Каким образом можно оценить состояние службы эксплуатации ЦОД для потенциального размещения своего оборудования? Во втором случае мы говорим исключительно об оценке эксплуатационной деятельности, не затрагивая вопросы резервирования и прочего, а также вопросов физической безопасности службы поддержки клиентов, так как это отдельные большие темы.

Для этого требуется посетить ЦОД, просмотреть эксплуатационную документацию, совершить обход как серверных помещений, так и помещений с инженерным оборудованием, провести беседы с руководителями эксплуатации и дежурным персоналом.

Примерный чек-лист для определения уровня зрелости службы эксплуатации ЦОД

• Есть ли проактивные меры по уменьшению загрязнений (бахильная машина, липкие ковры)?

• Не просрочены ли огнетушители или газ в системе газового тушения? Даты поверки и заправки указаны на огнетушителях и баллонах с газом?

• Чисто ли на территории? Нет ли посторонних предметов в серверных, не относящихся к деятельности ЦОД (например, шкафы, мебель, упаковочные материалы и т. п.)?

• Есть ли посторонние предметы в стойках (например, коробки и пакеты)?

• Присутствуют ли заглушки в холодных коридорах, закрыты ли излишние отверстия и щели в полу?

Рис. 6. Применение бахильной машины


Рис. 7. Применение липких ковров


• Есть ли заглушки на выключенных кондиционерах, препятствующие обратному перетоку холодного воздуха?

• Поддерживается ли подпор подаваемого вентиляцией воздуха внутри серверных помещений? Каким образом это контролируется?

• Каково состояние подфальшпольного пространства? Нет ли мусора под фальшполом?


Рис. 8. Мусор под фальшполом


• Есть ли документ, описывающий процедуру уборки? Указано ли там, где и каким способом следует ее проводить?

• Есть ли маркировка оборудования в едином формате? Хорошо ли она видна?

• Есть ли в щитовом оборудовании, кондиционерах, задвижках и т. д. маркировка положений по умолчанию? Запишите положение выключателей любого щита. Запишите положение любой задвижки. Это пригодится дальше.

• Аккуратно ли хранятся материалы на складе? Как происходит учет материалов и мест их хранения? Сфотографируйте одну из полок стеллажа на складе. Это пригодится дальше.

• Есть ли оборудование, в данный момент выведенное из работы? Запишите его маркировку (если имеется), зафиксируйте, какое именно это оборудование и где оно находится. Сверьтесь с дежурным инженером, может ли он подтвердить все это документально.

• Есть ли информация о версионности документов, доступных вам для обозрения? Помните, что схемы не должны быть старше двух лет, а документация – старше трех лет от текущей даты.



О чем спросить главного инженера / руководителя ЦОД (желательно без предварительной подготовки со стороны службы эксплуатации):

• За организацию эксплуатации каких систем он отвечает? Записано ли это в его должностной инструкции?

• Актуальный список обслуживания оборудования, не выполненного в срок за последний год. Где его можно посмотреть?

• Актуальный список дежурных инженеров, не прошедших плановые тренировки в текущем месяце. Где его можно посмотреть?

• История всех отказов и обслуживания кондиционера ХХ (подставьте номер, который вы запомнили из предыдущего обхода) за последний год.

• Сколько подобных аварий было на другом аналогичном оборудовании? Есть ли учет ошибок и их анализ?

• При каком уровне нагрузки ЦОД надо начинать закупку дополнительных новых ИБП? Задокументировано ли это, есть ли планирование, можно ли все подтвердить документально?

• Какие риски существуют на данный момент для вашего ЦОД? Где это задокументировано?

• Что такое парные нагрузки? Как вы контролируете парные нагрузки? Какие именно парные нагрузки контролируете?

• Спросите о выведенном из работы оборудовании, которое вы отметили в прошлой части во время обхода. Есть ли соответствующие записи в отчете дежурных за смену?

• В каком виде и где хранится текущая документация по эксплуатации, внутренние политики и процедуры?


Затем посетите дежурную смену без руководителя и спросите по очереди дежурных инженеров (лучше в режиме один на один):

• За оперативное управление какими системами отвечает дежурный? Почему и где это записано?

• Кому дежурный отправляет отчеты при передаче смены? Почему и где это записано?

• Использует ли дежурный на обходе чек-лист? Почему и где это записано?

• Как дежурный контролирует работу подрядчиков? Почему и где это записано? (Во всех этих ответах информация должна совпадать с рассказом главного инженера.)

• В каком штатном положении должны быть выключатели из щита, который вы отметили? Почему и где это записано?

• В каком штатном положении должна быть задвижка, которую вы отметили? Почему и где это записано?

• Что хранится на полки Х стеллаже Y склада? Сравните данные из файла учета склада с фотографией, сделанной ранее.

• В какой момент надо заказывать материалы на склад? Почему и где это записано?

• Что дежурный будет делать в случае пожара, повышения температуры, отключения внешнего электроснабжения (любая аварийная ситуация на ваш выбор) и почему именно так? Может ли он рассказать, когда он в последний раз тренировался действовать в такой ситуации?

• Когда следующая тренировка у дежурного и на какую тему?

• Где хранится отчет о последнем ТО оборудования, за которое отвечает дежурный?

• Опять спросите о выведенном из работы оборудовании. Есть ли эти данные? Совпадают ли с информацией главного инженера?

1
...