Независимая приёмка ЦОД

Независимая приёмка ЦОД

Поговорим на понятном языке о приемо-сдаточных испытаниях.

 • 

Всем привет! Меня зовут Кирилл Шадский, я руководитель отдела управления внешними ЦОД компании ДатаЛайн.

Эта статья посвящена наиболее важным аспектам проведения приёмо-сдаточных испытаний, а также возможным проблемам и подводным камням, которые могут попортить немало нервов начинающим «испытателям».

Итак, представьте: довольный подрядчик рапортует нам о пятилетке в четыре года о том, что проблем нет и объект (ЦОД или отдельный зал) готов к эксплуатации. Казалось бы, сейчас самое время приступать к испытаниям, но… на самом деле мы уже опоздали. Приёмо-сдаточные испытания стоит планировать как минимум на этапе проектирования.

Самый первый вопрос — кому поручить испытания? Конечно же, строителям! Ведь это намного проще, чем самостоятельно проверить каждый узел или нанять независимую комиссию. На всякий случай, уточняю: это шутка. Если бы всё было так просто, эта статья не была бы написана.

Любой подрядчик будет рад проверить то, что сам построил. Очень хорошо искать у самого себя косяки и перепрятывать их в другое место.

Помните: даже самый хороший и проверенный подрядчик – заинтересованное лицо и всё, что он скроет, в будущем может стать проблемой. Поэтому всегда либо проводите приёмо-сдаточные испытания самостоятельно, либо обращайтесь к независимой организации.

Если вы опытны и испытания вас не пугают, можно провести их самостоятельно. Я постараюсь подробно рассказать вам, как устроены приёмо-сдаточные испытания у нас и с какими проблемами мы сталкиваемся на различных этапах.

В ДатаЛайн существует дирекция по капитальному строительству, которая занимается возведением новых залов и ЦОДов. После строительства все это переходит в ответственность службы эксплуатации. Для нее важно, чтобы все было построено качественно. Наш технический директор Сергей Мищук является своеобразным “мировым судьей” между этими двумя подразделениями компании.

Несмотря на весь наш опыт, каждый раз во время испытаний мы находим самые разные косяки: и серьезные, и небольшие. Это абсолютно нормально. Необходимо выловить их во время испытаний, чем дождаться, пока они перерастут в проблемы. Вот несколько примеров.

В 99% случаев есть нарекания по герметизации отверстий между стенами или помещениями. Эта ситуация вполне объяснима: сначала нужно проложить СКС, силовые кабели, фреонопровод и прочие трубы, а герметизация откладывается на последний момент. Поэтому обязательно проследите за тем, чтобы до начала испытаний она была завершена.

Мы в обязательном порядке делаем проливку гермозон. Все помещения ЦОД находятся в отдельных гермозонах, “дом в доме”.

Вид на гермозону сверху
Вид на гермозону сверху

Если в вашем ЦОДе есть гермозоны, их нужно обязательно пролить водой из шланга и убедиться, что ничего не течет.

Никуда не деться и от мусора. Под фальшполом неминуемо будут попадаться обрезки кабеля, винтики-болтики и прочие напильники, забытые рабочими. Сколько бы я ни проводил проверок, всегда есть замечания.

Если не заставить рабочих прибраться сразу, всё так и останется лежать, когда привезут и установят оборудование. Как вы думаете, что проще? Устранить на месте или потеть с фонариком под работающими стойками и чистить строительный мусор?

И все это лишь вершина айсберга, проблемы, приведенные для общего понимания картины. Теперь же мы подробно разберем каждый этап испытаний и начнем с «нулевой отметки», а именно с планирования.

Подготовка к испытаниям

Почти в каждой статье мы говорим о важности предварительного планирования, и сегодня тоже не будем прерывать эту славную традицию. Более того, именно планирование должно являться вашим первым (если не “нулевым”) шагом в проведении испытаний.

Uptime Institute рекомендует начать планирование и создание комиссии по приёмке еще на этапе эскизного проекта ЦОД, а начало работ по проверке — уже на этапе проектирования.

Начинаем с приёмки проекта, без этого никак не обойтись. Лучше всего осуществить приёмку до начала строительства, на этапе проектирования. Помните: всегда легче исправить то, что “на бумаге”, чем уже построенный объект. В ряде случаев “слегка подправить” готовый ЦОД вообще не представляется возможным.

Также в вашем плане испытаний должны присутствовать следующие пункты:

  • Какие будут проводиться испытания?
  • Когда будут проводиться испытания?
  • Кем будут проводиться испытания?
  • Кто из сотрудников компании будет задействован?
  • Какой инструмент и оборудование потребуется (токовые клещи, виброметры, тепловизоры, анемометры и множество других непонятных, но нужных вещей)?

Для каждого испытания составляем список проверяемых систем, так как в разных ЦОДах каждое подразделение отвечает за своё оборудование. В одном месте мы будем проверять только электричество и кондиционеры. В другом к ним могут добавиться прочие системы, например, АУГПТ, видеонаблюдение, СКУД (по согласованию с безопасниками).

Особое внимание мы уделяем самому зданию. Как правило, марка бетона и то, как залиты перекрытия, — не наша вотчина и специализация, но фальшпол, двери, водоснабжение и канализацию проверяем обязательно.

Иными словами, перед началом испытаний нужно четко знать, что и где мы будем тестировать, чтобы избежать накладок и путаницы.

Важное замечание: когда вы проверяете ту или иную систему, рядом с вами должен находиться тот, кто её построил, или другое ответственное лицо. Относится ко всем этапам.

В целом, приёмо-сдаточные испытания включают в себя следующие этапы:

  • Проверка проекта.
  • Проверка документации.
  • Автономные испытания.
  • Комплексные проверки.

Отдельно рассмотрим каждый из них.

Проверка документов

Пропускать этот этап и тем более проводить его параллельно с автономным тестированием ни в коем случае нельзя. Даже если время поджимает, вы должны быть уверены, что каждая единица оборудования и каждая система соответствуют заявленным в проекте. Без проверки документации вы не сможете качественно произвести дальнейшие испытания, не говоря уже о юридической стороне вопроса.

Полный список проверяемых документов индивидуален и зависит от вашей конфигурации.

Привожу пример документов, которые необходимо проверять в ходе испытаний:

  • исполнительная документация на каждую систему;
  • паспорт на оборудования;
  • акт технологического пуска;
  • акт замеров и испытаний;
  • акты проверки опрессовки системы;
  • отчет лаборатории по измерению сопротивления контура заземления и других кабельных коммуникаций;
  • инструкция по монтажу оборудования.

Существует еще эксплуатационная документация. Она не всегда указана в договоре на строительство, и если ее нет, запросите ее у подрядчика дополнительным соглашением. В эксплуатационной документации должны присутствовать инструкции и алгоритмы основных переключений, но к этому мы еще вернемся в разделе о комплексных испытаниях.

Помимо всего вышеперечисленного, крайне желательно, я бы даже сказал, обязательно, составить таблицы нагрузок. К сожалению, их делают не всегда, но это достаточно важный и удобный документ.

Для чего же он нужен?

Обычно резервирование в ЦОДе организовано по двум лучам питания, и нужно понимать, какая нагрузка перейдет на один луч вследствие полного отключения питания на другом.

Казалось бы, общей схемы для этого вполне достаточно. Но с таблицами вашим специалистам будет намного удобнее работать. Меньше шансов что-то пропустить или запутаться.

Разумеется, мы не можем каждый акт подвергнуть сверке с реальностью, но убедиться в том, что все акты существуют, необходимо.

Автономные проверки

Автономные проверки — следующий шаг в приёмо-сдаточных испытаниях ЦОДа. Здесь необходимо вручную проверить каждую единицу оборудования: работоспособность, настройки, работу при максимальной нагрузке и, конечно же, маркировку — куда без нее :) Важно, чтобы маркировка совпадала с проектом. Но не менее важно, чтобы она совпадала с реальностью.

Пример маркировки гликолевого контура
Пример маркировки гликолевого контура

Например, для системы распределения электроснабжения мы подаем тестовую нагрузку и физически включаем/отключаем каждый автомат в распределительном щите. И, начиная с IT-оборудования, по очереди проходим каждую стойку, делаем таблицу и следим за тем, чтобы при отключении автомата отключалось и соответствующее железо.

Конечно же, иногда в распределительных щитах магическим образом возникают автоматы, которых не было в проекте. Ничего страшного, главное, чтобы нагрузка не превышала норму, и это было отмечено в документации.

Правильный распределительный щит
Правильный распределительный щит

Для такого оборудования, как кондиционеры, ДГУ и ИБП, проводим простые автономные проверки: вкл/выкл, режимы работы, настройки и т.д.

Как это ни странно, важно проверять, насколько хорошо закреплено оборудование. У нас были случаи, когда важные гайки можно было открутить чуть ли не пальцем.

Первый раунд закончен, и мы даем монтажникам время на исправление недоработок, после чего возвращаемся, и всё идет по второму кругу.

Говорят, что между собой рабочие называют их кругами монтажного ада — очень часто на повторном осмотре мы находим косяки, которых раньше не замечали. И начинается: «А что вы сразу не сказали?».

Понять людей можно, но у нас — почти как в фильме «Берегись автомобиля»: ты догоняешь, а я убегаю. Только наоборот: ты устраняешь, а я нахожу.

Ниже приводится список наиболее важных автономных испытаний, которые мы проводим.

Холодоснабжение:

  • визуальный осмотр оборудования на соответствие требованиям руководства по установке;
  • проверка надежности закрепления трубопроводов, изоляции трубопроводов и их стыковки;
  • проверка надежности крепления электрооборудования в электрощите (автоматы, магнитные пускатели, колодки контактов);
  • проверка панели управления на работоспособность;
  • проверка алгоритма работы программного обеспечения оборудования: переключение с рабочего на резервное после имитации аварии, проверка ротации по времени (при наличии).

Электроснабжение:

  • визуальный осмотр оборудования, проверка на соответствие требованиям руководства по установке;
  • проверка на соответствие системы и ее компонентов однолинейной схеме;
  • выборочные бесконтактные замеры температуры (с указанием мест проверок).

ДГУ:

  • проверка панели контроля и управления;
  • проверка корректной работы световой и звуковой индикации;
  • проверка наличия проблем при тестовом пуске ДГУ в автоматическом и ручном режимах;
  • проверка работоспособности ДГУ в течение 6 часов на 30% проектной нагрузки.

ИБП:

  • проверка автостарта ИБП при разряде батарей до предельно допустимого уровня, проверка времени автономной работы (при работе на 100% проектной нагрузки);
  • сверка основных параметров ИБП при работе на 100% нагрузке;
  • проверка вывода ИБП в bypass в автоматическом и ручном режиме при работе на 100% проектной нагрузки.

Когда всё функционирует так, как положено, автономные тесты завершаются, и начинается самое веселое: комплексные испытания.

Комплексные испытания

Позвольте сделать здесь небольшое лирическое отступление и поговорить о том, что такое ЦОД и что важно для его функционирования.

В первую очередь, ЦОД — это единая система, почти живой организм. И от того, как будут взаимодействовать все его органы, зависит его «здоровье» в целом.

Например, специалисты по кондиционерам часто говорят нам: «Что вам не нравится? Смотрите, оно дует и охлаждает! Всё как надо!».

Спецы по ДГУ им вторят: «Смотрите, всё заводится и даже дает электричество!». И вообще, каждая единица оборудования хорошо работает (это мы проверили еще на автономных испытаниях), но только сама по себе. Стоит запустить всё вместе, и система рассыпается. Именно для выявления проблем, связанных с совместной работой оборудования, служат комплексные проверки.

Объем испытаний может варьироваться в зависимости от уровня резервирования: чем больше взаимосвязанных систем, тем больше вариантов работы нужно проверить и отладить.

Например, если мы строим ЦОД уровня Tier III, необходимо, чтобы каждый элемент инфраструктуры, включая кабельные трассы и пути дистрибуции, мог быть безболезненно отключен для замены или ремонта. Сообразно этому растет количество необходимых испытаний. Мы последовательно производим выключение/вывод из строя разного оборудования, когда ЦОД работает под нагрузкой. Изменения в одной системе ни в коем случае не должны привести к сбоям в смежных.

Важное уточнение №1: все комплексные испытания проводятся под нагрузкой. В 99% случаев прямо в машинном зале ставятся тепловые пушки, и ЦОД «прожигается» — так мы проверяем качество работы инженерных систем.

Важное уточнение №2: основным источником питания ЦОД являются ДГУ. Город — это альтернативный “дешевый” источник, поэтому все комплексные проверки мы проводим на дизеле.

Одна из ключевых систем в любом ЦОДе – автоматика в главном распределительном щите и ДГУ. Эту систему проверять нужно очень тщательно. Стандартный косяк – не происходит переход на ДГУ, если отключается городской ввод. Всё потому, что ДГУ монтируют одни люди, а автоматику – другие, и оборудование не стыкуется.

Когда система будет отлажена, стоит подготовить таблицу настроек и прописать алгоритмы работы АВР. Если вам попадется ну очень хороший и ответственный подрядчик (проектировщик, строитель), который самостоятельно всё задокументирует, тем лучше. В противном случае, не поленитесь и пропишите следующие пункты самостоятельно:

  1. через сколько секунд поступает команда на запуск ДГУ;
  2. через сколько секунд происходит переход на ДГУ;
  3. п. 1 и п. 2 в обратной последовательности.

Ниже приводится примерный алгоритм одной из проверок, используемый нами и Uptime Institute.

  1. Осуществляем переход с городской сети на группу ДГУ, измеряем показатели.
  2. Возвращаемся обратно.
  3. Полностью отключаем один из ДГУ (выключаем связи, автоматы) и смотрим, как система стартует без резервного дизеля. Здесь могут проявиться проблемы, связанные с некорректной настройкой автоматики.
  4. Когда дизельные генераторы проверены, продолжаем работать на них и проводим остальные тесты питания.
  5. Выключаем один ИБП и смотрим, как нагрузка переходит на другой луч. Переводим в bypass и обратно, разряжаем аккумуляторы.
  6. Продолжаем последовательно идти по схеме и отключать распределительные щиты.

Затем проверяется система кондиционирования. Мы по очереди отключаем кондиционеры и, если у них есть встроенная система АВР, проверяем и её.

Если кондиционеры настроены на работу в группе и автоматически переключаются с резервного на основной, обязательно проверяем, как это работает.

  • убираем все связи;
  • перезагружаем контроллер, отвечающий за переключение;
  • отключаем распределительный свитч, который связывает кондиционеры;
  • тестируем автоматику — здесь тоже часто возникают сбои;
  • делаем всё, о чем могло бы быть написано в романе “50 оттенков ЦОДа”.

Для гликолевой системы обязательно проверить гидравлику путем отключения насосов и вывода из работы одного из теплообменников и одного или нескольких участков трассы. На фото ниже можно увидеть, что каждый щит промаркирован и снабжен краткой инструкцией.

Тут можно увидеть, что каждый щит промаркирован и снабжен краткой инструкцией
Тут можно увидеть, что каждый щит промаркирован и снабжен краткой инструкцией

Важно: если переключения производятся вручную — обязательно, чтобы подрядчик предоставил алгоритм. На маркировках кранов и задвижек должны быть указаны рабочие положения (норм. откр., норм. закр.).

Часто подрядчики говорят: этого не было в предоставленном плане тестирования. На это можно отвечать: аварии планов не предоставляют :)

Случаются и казусные ситуации. Например, во время тестирования ИБП на разряд может прибежать злой кондиционерщик:

— Что ж вы, ироды, делаете?! Вы зачем насосы отключили?

— Мы не отключали ничего, мы ИБП тестируем.

— А зачем тогда чиллеры насиловать? Они же сломаться могут!

— Вот поэтому и тестируем, чтобы такие узкие моменты находить.

Еще один частый тест — проверка системы пожаротушения. Для этого мы отключаем всю автоматику от баллонов и тестируем, как работают направления. Бывает, что направления перепутаны, не работает открытие/закрытие.

Не стоит забывать и о системе мониторинга (подробнее о ней мы писали здесь и тут). Как только мы что-то включаем или отключаем, это изменение обязательно должно появиться на панели. Также проверяем, не начинает ли мониторинг «тупить» при большом количестве alarm’ов.

Обязательно тестируйте питание мониторинга. Ни в коем случае нельзя терять контроль над ЦОДом в случае нештатной ситуации.

Делаем всё руками строителя

В начале я писал, что приёмо-сдаточные испытания должны проводиться внешними специалистами. Но есть вещи, которые стоит поручить непосредственно подрядчику. Это демонстрационные включения и отключения оборудования (а также некоторые другие работы). Принимающая сторона ходит с чек-листом и записывает результаты. Примерно так:

  • Принимающая сторона говорит: «Нам нужно выключить кондиционер №34. Коллеги, выключайте, покажите нам, как вы это делаете».
  • Строитель показывает и объясняет.
  • Принимающая сторона записывает.

Это правило хорошего тона.

Вопрос времени

Как вы уже могли понять, приёмо-сдаточные испытания — это длительный процесс. Их продолжительность сильно зависит от размеров ЦОДа и количества оборудования, поэтому ниже я приведу средние показатели (ЦОД на 50-100 стоек).

  • Проверка документации — 3-5 рабочих дней сильных проектировщиков.
  • Автономные проверки — 3-5 дней на итерацию, так как нужно проверить каждый элемент ЦОДа и дать подрядчику время на исправление ошибок. Сколько будет итераций, одному Богу известно.
  • Комплексные проверки — 2-3 дня, если все работает исправно.

Разумеется, эти цифры весьма приблизительны. Не рассчитывайте, что уложитесь в 2-3 недели. Иногда проверки могут идти и несколько месяцев.

Построили зал, запустили систему — можно провести автономную проверку. Проверили, все исправили — запустили еще одну систему. Её тоже проверили и подписали акты. Ну а потом, когда уже все готово, проводится комплексная проверка.

Про то, как мы трубы подкидывали

Эта история произошла с уже упомянутым ранее техническим директором Сергеем Мищуком.

Однажды он принимал ЦОД внутри ДатаЛайн и осматривал один из новых залов. Я был молод и зелен салатов, ходил с умным видом и записывал. Первое, что он сделал, — попросил поднять плитку фальшпола. Строители поднимают, и под ней обнаруживается метровый обрезок трубы диаметром 10 см.

Строители тут же хватаются за голову: «Не было её, всё проверяли, не было!». Происхождение трубы так и осталось загадкой, и строители сошлись между собой на том, что сам Мищук тайком пронес её в рукаве рубашки. Летней. Белой.

Через несколько лет, когда я стал уже не таким молодым, но все еще оставался салатовым, была проверка нового ЦОД. В ходе проверки я сам первым делом прошу поднять фальшпол.

Как вы думаете, что там лежит? Правильно, труба. Раза в четыре поменьше, но такая же лишняя и загадочная.

Строители остались в полной уверенности, что мы сами подбрасываем им трубы, чтоб помучить. Я не стал их разубеждать — главное, чтобы всё убрали.

Мораль истории: неважно, насколько вы опытны и профессиональны, всегда найдется таинственная труба, неисправный автомат или нечитаемая маркировка. Не ленитесь проверять всё с максимальной дотошностью «здесь и сейчас», чтобы потом, когда в вашем ЦОДе будет стоять критичное IT-оборудование, не бегать сломя голову и не лечить косяки на ходу. Профессионализм — это не только построить качественную систему, но и проверить её работоспособность.

Если у вас появились какие-либо вопросы, я с радостью отвечу на них в комментариях.

Расскажите друзьям и коллегам о статье

Последние статьи

Как мы создали мощный инструмент для мониторинга процессов в системе резервного копирования на основе Grafana.

Андрей Александров

Фотоэкскурсия по первой очереди дата-центра в Медведково.

Алексей Приезжев

Рассказываем, как проверять ресурсы ВМ на ошибки и даем ключевые метрики, на которые можно опираться.

DataLine