Читать книгу «Эксплуатация ЦОД. Практическое руководство» онлайн полностью📖 — Константин Нагорный — MyBook.
image

Роль службы эксплуатации на различных этапах построения ЦОД

Перед началом непосредственного использования объект нужно построить, протестировать и сдать в эксплуатацию. Чтобы переход от построения ЦОД к эксплуатации был максимально гладким и организованным, а уровень сервиса – высоким с первых дней работы ЦОД, требуется участие службы эксплуатации на всех этапах создания ЦОД, начиная с написания технического задания. Надо учитывать, что служба эксплуатации не обладает таким опытом, как проектные организации, сдающие по несколько ЦОД в год, но тем не менее она определяет важные нюансы, которые улучшат или облегчат функционирование ЦОД в дальнейшем.

Поэтому крайне важно начинать формировать службу эксплуатации еще до начала работ по проектированию ЦОД, чтобы иметь свою внутреннюю команду для контроля выполнения задач проектировщиками. Эта команда будет максимально заинтересована в получении результата – ведь именно ей в дальнейшем придется эксплуатировать данный ЦОД.

Какие задачи будут выполняться на начальном этапе:


* Значение аббревиатур SCP, SOP, MOP, EOP будет объяснено далее по тексту.

Пусконаладочные работы, приемка в эксплуатацию

После того как ЦОД построен, он проходит пусконаладочные работы и приемо-сдаточные испытания, которые являются начальной точкой эксплуатации и предваряют дальнейшее повседневное управление ЦОД. Собственно пусконаладочные работы, испытания и сдача ЦОД в эксплуатацию (commissioning) состоят из нескольких достаточно широко известных этапов, которые, в частности, предлагает Uptime Institute:

1. Заводское тестирование производителем критически важного инженерного оборудования (Factory Acceptance Test, FAT, или Factory Witness Test, FWT).

Может быть проведено как в присутствии представителя команды эксплуатации, так и без него, с приложением результатов заводского тестирования к комплекту документов.

2. Получение, установка и предварительное функциональное тестирование критически важного инженерного оборудования (Installation Acceptance Test, IAT).

Получение, первичная установка оборудования, оценка комплектности и соответствия спецификации, проверка правильности монтажных работ в соответствии с проектом.

3. Функциональное тестирование, автономное тестирование критически важного инженерного оборудования и начальная конфигурация предварительного пуска системы (Component Test, CT).

Настройка и тестирование оборудования.

4. Запуск системы, ОЕМ-тестирование и индивидуальное тестирование систем (Site Acceptance Test, SAT).

Испытания конкретного оборудования по соответствующей программе, с нагрузкой и без.

5. Интегрированные эксплуатационные испытания (Integrated Site Acceptance Test, ISAT).

Комплексные испытания всех систем ЦОД одновременно на расчетную нагрузку.


Важно понимать, что все эти стадии приемки оборудования в эксплуатацию происходят не только во время начала работы ЦОД, но и при всех последующих расширениях различных систем.

Влияние службы эксплуатации на проектирование

В процессе создания ЦОД каждый должен выполнять свою роль. Часто между проектировщиками и службой эксплуатации возникают споры из-за технических решений. И на самом деле споры – это хорошо. Если люди готовы слушать аргументы, то в спорах рождается лучшее решение.

Ниже опишем некоторые часто встречающиеся примеры из нашей практики, неочевидные для проектировщиков и жизненно важные для эксплуатации и потребителей услуг ЦОД.


Требования к внешнему электроснабжению

Зачастую заказчики и проектировщики пытаются повысить надежность проектируемого ЦОД путем ужесточения требований к внешнему электроснабжению. В результате напрасно расходуется время на поиски площадки с возможностью выделения двух независимых городских вводов электричества для обеспечения первой или второй категории надежности энергоснабжения[26], при этом подключение по более высокой категории оплачивается по повышенным ставкам (технологическое присоединение по второй категории надежности будет значительно дороже по сравнению с третьей). Кроме того, срок технологического присоединения увеличится, так как для присоединения по более высокой категории потребуется больше времени на проектирование, согласование проекта в Ростехнадзоре и получение разрешительных документов. При этом подходящие площадки, имеющие только один ввод внешнего электроснабжения, отвергаются априори.

Однако если открыть стандарт Tier Standard: Topology (TS: T) компании Uptime Institute, то мы увидим в пункте 2.5, что «энергогенерирующие системы площадки (например, двигатель-генераторы, топливные элементы) рассматриваются в качестве основного источника электроснабжения ЦОД. Местная электрическая сеть является экономичной альтернативой…».

Далее, если мы обратимся к статье «Система классификации Tier: мифы и заблуждения»[27], то узнаем, что, «согласно стандарту Tier Standard: Topology, единственным надежным источником электропитания для ЦОД является генераторная установка. Это связано с тем, что электроснабжение подвержено незапланированному отключению даже в местах с надежными электросетями. Число внешних фидеров, подстанций и электросетей, к которым подключен ЦОД, не определяет его уровень Tier и никак не влияет на него. Как следствие, подключение к электросети общего назначения даже не требуется для сертификации».

К этому выводу можно было прийти и самостоятельно, просто внимательно прочитав определение категорий электроснабжения в Правилах устройства электроустановок (ПУЭ).

ПУЭ, п. 1.2.19. Электроприемники первой категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания, и перерыв их электроснабжения при нарушении электроснабжения от одного из источников питания может быть допущен лишь на время автоматического восстановления питания.

ПУЭ, п. 1.2.20. Электроприемники второй категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания. Для электроприемников второй категории при нарушении электроснабжения от одного из источников питания допустимы перерывы электроснабжения на время, необходимое для включения резервного питания действиями дежурного персонала или выездной оперативной бригады.

В приведенных пунктах ПУЭ мы видим две важные вещи:

А) В обоих случаях источники должны быть взаимно резервирующими, а это те источники, на которых, согласно ПУЭ, п. 1.2.10, «сохраняется напряжение в послеаварийном режиме в регламентированных пределах при исчезновении его на другом или других источниках питания», то есть резерв источников должен быть 2N. Не следует путать это резервирование с двумя линиями от одной подстанции (резерв линий 2N). Наличие резерва 2N по линиям от одного источника, например от ДГУ, вполне логично, так как позволяет обслуживать одну линию без выведения всего комплекса ДГУ из работы. Наличие двух линий от городской подстанции тоже имеет смысл, так как позволит вам не переходить на ДГУ при обслуживании одной из этих линий. Но две линии от одного источника – это все равно третья категория надежности.

Б) Время пропадания электричества равно времени ручного переключения для второй категории и времени автоматического переключения – для первой. При этом в обоих случаях пропадание допустимо и время этого переключения не нормировано, хотя, скорее всего, предполагается, что время ручного переключения исчисляется в минутах (а может, и в часах), а автоматического – в секундах, если другое явно не указано в договоре на электроснабжение. Теперь представьте себе, что электроснабжающая организация согласится добавить себе в договор дополнительные временны́е обременения и, естественно, штрафы за их неисполнение, а они равны штрафам, которые клиенты выставят ЦОД. Считаете ли вы такое развитие событий вероятным?


Подведем итог:

При любой категории внешнего электроснабжения надо понимать, что его безотказная работа находится не в вашей зоне ответственности. Другое дело – всецело принадлежащий вам источник электроснабжения (чаще всего это ДГУ). За его состояние и работоспособность несет ответственность служба эксплуатации, то есть вы сами.

Согласно Uptime Institute Tier Standard: Topology (TS: T), п. 2.5, «перебои в электрической сети (внешней) считаются не аварийной ситуацией, а ожидаемым рабочим условием, к которому площадка полностью подготовлена». Подготовить площадку к такому событию возможно путем проведения плановых работ по переключению на локальные источники генерации электричества и обратно с целью убедиться в надежной работе такого переключения. Однако, по нашему опыту, во многих ЦОД опасаются производить настоящее отключение внешнего электроснабжения для тестирования ДГУ, а следовательно, и тестирования всей энергосистемы в комплексе, считая, что такое переключение может пройти со сбоями и повлиять на сервисы, предоставляемые клиентам. Тем не менее без регулярного проведения таких полноценных запусков ДГУ быть уверенным в безотказной работе ЦОД не представляется возможным.

В результате мы видим, что, с точки зрения стандарта Tier Standard: Topology, категория электроснабжения ЦОД никак не влияет на уровень надежности ЦОД, а служба эксплуатации ЦОД может рассчитывать только на источники электричества, находящиеся в собственном управлении ЦОД (чаще всего это ДГУ), и должна быть всегда готова к вероятному отключению внешних источников электроснабжения, которые рассматриваются как вспомогательные. Однако это утверждение не отменяет положительного влияния на надежность, которое дает наличие двух взаиморезервирующих вводов электроснабжения площадки от одного источника энергии или подстанции. Эту схему нельзя называть второй категорией электроснабжения, так как источник один, но она позволяет сохранять электроснабжение площадки при аварии или обслуживании снабжающих площадку линий, ячеек, трансформаторов.

При наличии одной кабельной линии вся нагрузка будет запитана только через нее. Получается единая точка отказа: это либо трансформатор, либо кабельная линия, либо вводной автомат. При отказе одного из этих элементов потребуется долгосрочный и дорогостоящий ремонт, а вы все это время будете вынуждены работать от собственных источников – ДГУ. В итоге использование двух независимых кабельных линий – это хорошо, но дорого. Однако стоит понимать, что при выборе второй или первой категории надежности стоимость подключения возрастает минимум в два раза относительно присоединения по третьей категории надежности. Ведь для энергоснабжения по первой или второй категории необходимы два источника питания, а присоединение к каждому из них стоит примерно одинаково.


Мощности ЦОД на стадии запуска

К сожалению, не всем очевидно, что ЦОД не запускается на полную мощность сразу же. Поэтому к выбору оборудования следует подходить очень осознанно. Следует выбирать оборудование с таким расчетом, при котором КПД будет наиболее эффективным при поэтапном увеличении мощности ЦОД. Это достигается за счет постепенного наращивания единиц оборудования. Согласно рекомендациям производителей, для обеспечения стабильной работы, например ДГУ, нагрузка на нее не должна быть ниже 30 % номинальной мощности. Режим работы на пониженной нагрузке является неблагоприятным и грозит выходом из строя двигателя, так как при нагрузке ниже 30 % происходит неполное сгорание топлива в камере, что в итоге приводит к выходу из строя форсунок двигателя и неполадкам в поршневой группе.

Для проведения ПНР рекомендуем использовать специальные нагрузочные модули, имитирующие полную проектную ИТ-нагрузку ЦОД. Тем самым нагружается вся технологическая цепочка ЦОД: ДГУ – ГРЩ – ИБП – система распределения электропитания – система охлаждения потребителей ЦОД.


Рис. 1. Применение нагрузочных модулей


Нагрузочные модули лучше брать в аренду, а не покупать для постоянного использования. После запуска ЦОД у вас будет свой нагрузочный модуль – это работающий ЦОД, а проверка систем резервного электроснабжения будет осуществляться путем планового отключения основного источника электроснабжения, что опять же позволит протестировать всю технологическую цепочку систем ЦОД. Не следует бояться такого способа тестирования ЦОД, ведь именно он продемонстрирует работоспособность всего оборудования при возникновении реального отключения питания, которого может не происходить годами.


«Грязная зона» разгрузки

В ЦОД доставляется множество грузов, водители автомобилей и грузчики попадают на территорию ЦОД, посещают туалет и просто прогуливаются около автомобиля. Для упрощения процессов контроля и снижения рисков от присутствия посторонних лиц имеет смысл выделить «грязную зону» в виде разгрузочного тамбура, в котором будет гостевой туалет, кулер, место для отдыха и т. п. В этом случае не потребуется проводить процедуры оформления доступа для водителей и грузчиков.


Достаточная зона разгрузки

Проектировщики не всегда предусматривают достаточно большие однообъемные площади для складирования оборудования, стоек и т. п. Представим себе: в ЦОД приехало оборудование для двух холодных коридоров[28], например 50 стоек, к ним 8 кондиционеров и 2 ИБП для расширения. Вы заняли все пространство склада (если оно вообще способно это вместить), а к вам приехали клиенты с еще одной фурой оборудования и не имеют возможности разгрузиться.


«Грязная зона» входной группы

Аналогично с парадной стороны ЦОД есть входная зона, куда приходят потенциальные клиенты, простые посетители и курьеры. Многие посетители проводят здесь совещания и деловые встречи. Нет смысла устанавливать для этой входной зоны регистрацию посетителей или какой-то особый пропускной режим, но далее из этой зоны через полноростовой турникет в ЦОД должны попадать только авторизованные посетители. Удобно организовать во входной зоне несколько переговорных, кафетерий, туалеты, стойку охраны.


Пороги в противопожарных дверях

Часто проектировщик не думает об удобстве персонала, который потом будет эксплуатировать ЦОД, и выбирает самые дешевые двери с порогами, мешающими свободно перемещать тележки с ИТ-оборудованием. На самом деле существуют модели дверей без порогов, что очень сильно упрощает жизнь дежурных и клиентов в будущем.


Размеры коридоров (холодного или горячего) в серверных комнатах и количество дверей

Многие связывают этот вопрос с пожарными рисками, расчет которых часто допускает установку одной двери в довольно длинном ряду стоек. Это неверно. По нашему опыту, в коридоре обязательно должно быть две двери и максимум 12 стоек в ряду. Почему не более 12 в ряд? Чтобы не получился слишком большой путь от пятой-шестой стоек для работы с задней стороны стойки. Почему два выхода? В противном случае посетители и персонал будут вынуждены проделывать очень долгий путь от фасада самой дальней стойки к ее задней части. А в случае проведения работ в холодном коридоре в первой стойке выдвинутый и разобранный сервер сразу же блокирует весь остальной доступ.


Резервирование подъемных механизмов

У вас когда-нибудь ломался лифт? Вы оценивали преимущества наличия второго? Так и в ЦОД часто используются различные подъемные площадки для доставки оборудования на уровень фальшпола. Если одна сломалась или находится на техническом обслуживании, то дежурным не придется поднимать оборудование вручную.


Использование АВР[29]















1
...
...
9