Остаться в живых: чеклист для подготовки ЦОДа к лету

Остаться в живых: чеклист для подготовки ЦОДа к лету

Полезные советы, которые помогут пережить дата-центру лето без ЧП.

 • 
Лето, которое нас не убивает, делает нас сильнее.

Старая цодовская пословица

Summertime and the living is easy… Извините, отвлекся. Лето в загруженном дата-центре – это, конечно, не про easy living ни разу, и всем, кто хочет без потерь дожить до сентября, уже давно пора начинать подготовку.

Готовиться имеет смысл, даже если прошлое лето прошло без сбоев, и так же важно понимать, что безупречно работающие кондиционеры здесь обязательное, но недостаточное условие. Ну, да обо всем по порядку.

1. Вспомнить всё

Конечно, вы уже проделали это упражнение где-нибудь в октябре, но не пожалейте времени и постарайтесь еще раз припомнить все волнительные случаи прошлого лета: какие возникали проблемы, все ли они были устранены, есть ли у вас понимание, как действовать в аналогичных ситуациях сегодня, и не нуждаются ли осенние выводы в уточнении. Как говорится, зачем наступать на старые грабли, если можно освободить место для новых?

2. Reality check

Разобравшись с прошлыми проблемами, переходим к текущему состоянию дел. Достаточно ли у вас холода? Чтобы ответить на этот вопрос, откупориваем статистику энергопотребления серверного и сетевого железа (в разное время суток) и сопоставляем полученные цифры с проектной мощностью по холодоснабжению. Если текущая нагрузка больше проектной – можно начинать бояться. Вариантов тут, строго говоря, два: снизить нагрузку или усилить систему холодоснабжения, вплоть до модернизации оборудования (установки более мощных кондиционеров \ чиллеров). Еще можно оставить все как есть и сыграть в русскую рулетку, но это, так скажем, вариант на любителя.

Если на уровне общих цифр все в пределах, смотрим энергопотребление отдельных стоек во избежание локального перегрева. Стойки, потребляющие вдвое больше среднего, также необходимо либо разгрузить, либо обеспечить дополнительным охлаждением.

3. Песнь льда и пламени

Внимание, кэп на проводах: горячие и холодные коридоры имеют смысл тогда и только тогда, когда воздух между ними не смешивается. Повторяю, не смешивается. Как слышно? Не смешивается. Вообще.

Почему я рассказываю вам очевидные вещи? Потому что постоянно сталкиваюсь с тем, что эта, казалось бы, азбука попросту игнорируется.

Теперь идем в машинный зал и проверяем:

  • Все активное оборудование, до последнего сервера, должно забирать воздух из холодного коридора и выдувать его в горячий. С особым тщанием я бы рекомендовал проверять сетевое оборудование.
  • 1 юнит ≤ 1 «железка». Даже если оборудование компактное, места в юните еще много, а вы очень, очень рачительный хозяин.
  • Ничто не должно препятствовать выходу горячего воздуха из оборудования в (горячий же) коридор: никаких блоков розеток и АВР, не говоря уже об инструментах, место которым на складе, а не в стойке.
  • Все свободные юниты должны быть закрыты заглушками. И еще разок: ВСЕ. Тема с заглушками может показаться какой-то третьестепенной мелочью, но все оборудование вокруг такого мини-портала в горячий коридор будет систематически перегреваться. Оно вам надо?
  • Стойки должны стоять вплотную друг к другу, без «пробелов». По той же самой причине, по которой свободные юниты должны быть закрыты. И, понятно, если отдельные ряды стоек у вас «разбавлены» колоннами, убедитесь, что все пространство между колоннами и ближайшими к ним стойками также закрыто.

4. Чистота – залог прохлады

С машинным залом разобрались – идем смотреть внешние блоки кондиционеров \ чиллеры:

Прежде всего, проверяем, не изменился ли окружающий ландшафт: новые стены, постройки и т.д. – все это может заметно повлиять (в плохом смысле слова) на воздухообмен рядом с внешними блоками \ чиллерами, поэтому важно вовремя отслеживать подобные изменения и принимать необходимые меры.

Заодно стоит удостовериться, что у вас есть круглосуточный безопасный доступ к вашему внешнему оборудованию (это must), а сама площадка хорошо освещена, оснащена электрическими розетками и водопроводом (это если вы не хотите тянуть провода и шланги на дачный манер через коридоры-окна-двери).

Переходим к собственно оборудованию. Если в теплообменниках за зиму скопилась грязь (как оно обычно и бывает), берем квалифицированных спецов по кондиционерам – и вот да, моем. Почему квалифицированные спецы, а не гастарбайтеры? Потому что неподготовленные гости столицы могут, к примеру, погнуть ламели.

На период тополиного пуха планируем ежедневный мониторинг состояния внешних блоков  и готовимся дополнительно промывать ламели по мере необходимости.

5. Кручу-верчу проверить хочу

Если у вас есть резерв по кондиционерам (а он у вас должен быть), самое время убедиться, что резерв этот в рабочем состоянии:

Если резервные кондиционеры обычно выключены – включаете их вместо основных и проверяете, справляются ли они с текущей нагрузкой; ротацию оборудования вообще полезно проводить на постоянной основе, а не только в рамках «боевых учений».

Если у вас постоянно работают все кондиционеры, включая резервные, – последовательно выключаете каждый «лишний» и смотрите, как чувствуют себя оставшиеся.

6. ТО & подрядчик

Крайне желательно провести ТО холодильного оборудования до первых жарких дней (в этом смысле нынешний апрель всем в помощь). Также полезно заранее проверить срок действия текущего договора на обслуживание, чтобы не обнаружить себя посреди июня без подрядчика.

И позвоните вашему подрядчику: запросите внеплановый выезд, убедитесь, что сильная команда не разбежалась за зиму и в целом готова оперативно отрабатывать запросы.

7. На сервис надейся, а сам не плошай

Даже если ваш подрядчик по-прежнему молодцом, проверьте тот минимальный набор запчастей и инструментов, который должен быть у вас под рукой на случай срочного ремонта:

  • Расходные материалы «на каждый день»: фреон, масло,  автоматы, предохранители, вот это все.
  • Запчасти, доставка которых может затянуться на несколько недель:
    • Внешние и внутренние вентиляторы
    • Компрессоры для чиллеров \ кондиционеров
    • Контроллер
    • Датчики давления и температуры.

Листая старую тетрадь

Проверьте, есть ли у вас актуальные схемы расположения внешних блоков и читаемая маркировка на самих внешних блоках, – иными словами, убедитесь, что вы четко представляете себе, какой внешний блок относится к какому кондиционеру, и любой ваш инженер сможет в этом разобраться за минуту.

Попутно стоит проверить:

  • промаркированы ли вводные автоматы на кондиционерах;
  • имеются ли в распределительных щитах, к которым эти кондиционеры подключены, актуальные однолинейные схемы;
  • промаркированы ли в этих распределительных щитах автоматы (в идеале в формате «кондиционер N»).

Не расслабляться :)

В первые жаркие дни внимательно следите за показаниями мониторинга: это позволит оперативно отследить все «узкие места», по каким-либо причинам не выявленные на этапе подготовки.

Вроде всё.

Освежающей вам прохлады в жаркий полдень!

PS: не забудьте отключить free cooling  :)

Расскажите друзьям и коллегам о статье

Последние статьи

Как мы создали мощный инструмент для мониторинга процессов в системе резервного копирования на основе Grafana.

Андрей Александров

Фотоэкскурсия по первой очереди дата-центра в Медведково.

Алексей Приезжев

Рассказываем, как проверять ресурсы ВМ на ошибки и даем ключевые метрики, на которые можно опираться.

DataLine