Почему "падают" серверные стойки

Почему "падают" серверные стойки

Как избежать сбоев питания и снизить вероятность "падения" серверной стойки.

 • 
У коллег много историй и про физическое падение стоек, но сегодня мы не об этом

Любое отключение питания в стойке — это инцидент, который инженер дата-центра должен решить в минимальные сроки. Чаще всего критически важное оборудование в ЦОДе запитано от двух лучей, и после сбоя одного луча устройства нормально работают от второго. Но бывают банальные ошибки подключения и нестандартные случаи, из-за которых “падает” вся стойка.

Каждый сбой в питании мы фиксируем в системных журналах и отчетах смены и затем анализируем причины падений. За годы у нас накопилась статистика удивительных, а иногда просто глупых ситуаций падения стойки. Заодно мы собрали несколько таких историй от коллег в нашем чате Салатовой телеги.

Сегодня расскажем, как учесть этот опыт и снизить вероятность “падения” серверной стойки.

Сначала про стандартные случаи

По нашей статистике, примерно в 98% случаях сбоев электроснабжения замешаны блоки питания. У недорогого оборудования заказчики меняют их регулярно. Даже при плановых работах с отключением питания нужно быть готовыми, что часть блоков внезапно сгорит и уже не включится — очень уж они не любят перепады напряжения. А сгоревший блок питания часто приводит к срабатыванию вышестоящих автоматов в PDU и щите (если только не повезло заранее оснастить стойку дорогими и навороченными PDU).

Бывали и более драматичные истории у наших коллег: “Однажды стойка выключилась из работы, так как коротнули сразу два блока питания в обоих лучах обоих PDU. Стойка была уже старая”.

С учетом этой статистики мы выработали алгоритм устранения сбоя в стойке.

  1. Проводим визуальный осмотр стойки: не дымятся ли какие-то компоненты, нет ли запаха гари и других явных признаков проблем. В первую очередь осматриваем блоки и PDU, следы аварии чаще обнаруживаются на них.

    Вот несколько иллюстраций из архива с явными признаками проблем
  2. Осматриваем АВР и проверяем журналы событий на АВР и PDU.
  3. Убеждаемся в надежности подключения кабелей питания в разъемы, проверяем заземление в стойке и соединения разъемов питания типа “груша”:

    Это трехфазная “груша”. Все подобные разъемы по стандарту красного цвета

    Помимо визуального осмотра на всех трех этапах нам пригождается тепловизор: с его помощью мы проверяем нагрев по всей линии питания.

  4. Идем к распределительному щиту, проверяем автоматы. Иногда проблема видна невооруженным глазом:

    Тут сразу видно, что бывает при плохом контакте

    После визуального осмотра проверяем нагрузку на автоматическом выключателе и снимаем его с помощью тепловизора.

  5. Если понимаем, что острой ситуации нет, а луч питания отключился из-за срабатывания вышестоящего автомата, то включаем этот автомат.
  6. Если луч питания в стойке поднялся без проблем, первым делом ищем сгоревший блок питания без индикации и меняем его.
  7. Все этапы проверки фиксируем в чек-листе и затем анализируем причины сбоев.
  8. Если же автомат сразу выбивает повторно, ищем более серьезные причины: снимаем всю нагрузку с PDU и начинаем тестировать каждый блок питания по отдельности.
  9. Бывает, что ситуация не проясняется сразу. Например, причину отключения так и не нашли или короткое замыкание на PDU произошло по непонятной причине. Для более глубокого анализа ситуации используем переносной анализатор сети. Его можно подключить к пострадавшей PDU на 24 часа, собрать журнал за сутки и обнаружить скрытые проблемы.

Какие распространенные ошибки мы замечаем в рамках этой инструкции? Во-первых, важно не забывать про запасные блоки питания в ЗИПе, чтобы устранение сбоя не затягивалось.

Во-вторых, напоминаем заказчикам о важности разумной загрузки блоков, не выше порога номинальной мощности. В каком-то оборудовании сразу есть защита от перегруза, но могут попасться и не такие “умные” блоки. Всегда стоит ознакомиться с инструкцией и выяснить показатель, выше которой загружать устройство не стоит.

Пример инструкции по эксплуатации блока питания

В-третьих, нужно регулярно проверять правильность эксплуатации всех элементов в стойке.  Рекомендация “не перегружать” касается не только блоков, но и АВР, и PDU, и стойки в целом. Сервер может упасть из-за перегруза на любом из звеньев. Подробнее мы уже писали об этом здесь: 7 популярных ошибок при подключении оборудования.

Эти советы кажутся очевидными, пока не найдется нестандартное устройство. В нашей практике встречались серверы с двумя блоками питания, у которых потребление шло только по одному блоку, пока второй находился в горячем резерве. Такие настройки могут быть заданы в прошивках BIOS. Следовательно, при подключении сервера вся нагрузка ложится на одну PDU. Если не читать инструкцию и не управлять настройками грамотно, можно неверно рассчитать нагрузку.

Бывает, что блоки питания сгорают из-за скрытых производственных дефектов. Подозрения в заводском браке потом подтверждаются в результате экспертизы.

У этого блока питания в лаборатории нашли скрытый дефект

Так что иногда не помешает читать не только инструкции, но и отзывы на оборудование.

Итак, с блоками питания разобрались. Посмотрим на самое интересное — оставшиеся 2% падений. Можно поделить эти случаи на 2 группы.

Ситуации из-за человеческого фактора

По нашему недавнему опросу, у коллег первое место среди причин падений занимает человеческий фактор. Это все, что касается причин “забыл”, “перепутал”, “ослышался” и так далее. Посмотрим, как с этим можно справиться.

Недопонимание сотрудников. Человеческий фактор — это не обязательно злой умысел или некомпетентность. Например, инженер во время суточной смены может элементарно устать и неверно запомнить номер стойки, в которой нужно провести работы. Какие правила мы ввели, чтобы таких ошибок не было:

  • Заявки на отключение оборудования принимаем от заказчиков только в письменном виде: через личный кабинет или почту. Устные просьбы не принимаются :) Только в этом случае мы будем уверены, что заявка не исказилась в процессе передачи.
  • Право на создание таких запросов есть только у определенных сотрудников заказчика. В сервисдеске мы сразу увидим, что заявку создал сотрудник, который несет ответственность за стойку.
  • Каждый запрос проверяет сервис-менеджер. У одного заказчика может быть несколько договоров на разные услуги в разных стойках. Так что задача сервис-менеджера убедиться, что заявка заведена правильно, в рамках нужной услуги и договора.
  • Работы по отключению стараемся не планировать на нерабочее время, особенно ночью, когда внимание сотрудника может быть рассеянным.
  • Заявку на исполнение инженерам тоже передаем только в письменном виде. Если у сотрудника нет портативного устройства c доступом к заявкам, то текст заявки распечатываем.

Не тот луч. За всю историю наших дата-центров была пара случаев, что сотрудники при проведении работ в щитах отключали не ту стойку по одному лучу питания. С рабочим вторым лучом все было ок, но все равно непорядок. Как мы избегаем подобных ситуаций:

  • Все работы в щите проводим с привлечением старшего инженера смены, который проконтролирует действия коллеги. Автоматы отключаем только вдвоем.
  • Запрещаем отключать сразу несколько автоматов. Если нужно выключить стойку целиком, инженер обязан отключить один автомат, убедиться в отключении нужной PDU и лишь затем отключать второй автомат.
  • Маркируем все узлы подключения на пути луча питания: PDU, разъемы питания для подключения PDU.
  • Прокладываем цветные кабели и выдерживаем единую цветовую схему на всем пути луча — от автомата до блока питания.
В стойке с маркировкой и цветными кабелями сразу понятно, что куда подключено
Эта же цветовая схема под фальшполом
  • Регулярно знакомим заказчиков с правилами монтажа в стойке. Например, настоятельно не рекомендуем пропускать кабели одной стойки через техотверстия другой стойки. Это опасная ошибка, когда даже маркировка не спасет.

    Делать, как в красных стойках, не надо

    Почему так? Если наш инженер будет решать инцидент с отключением питания в конкретной стойке, он обязан проследить путь кабеля от оборудования до PDU. Когда монтаж выглядит так, как в красных стойках на схеме, это может оказаться гораздо сложнее.

Для тех, у кого свой ЦОД, добавлю важную деталь про цветовую дифференциацию проводников. При покупке кабеля можно столкнуться с двумя популярными цветовыми схемами для обозначения фаз L1, L2 и L3 при трехфазном подключении стойки:

  • схема Ж-З-К — желтый-зеленый-красный. Все электрики знают эту схему, во многих щитах можно встретить именно эти цвета:
  • схема Б-Ч-К — коричневый, черный и бело-серый, близкий к “металлик”. Этот вариант не такой контрастный, как Ж-З-К, так что многие его не любят. К тому же, в ГОСТах и правилах нет четкого закрепления этой схемы, только рекомендации. Поэтому электрикам бывает проще использовать ту схему, к которой они привыкли. Но проблема в том, что найти кабели черного, коричневого и бело-серого цвета намного проще, чем желтые, зеленые и красные нужного сечения.

    Поэтому мы рекомендуем не рассчитывать на “общее знание”, а  явно договориться о маркировке проводников у себя и прописать эту схему в документах ЦОДа, например, вот так:

Цветовая схема подключения проводников

Повернутый автомат. Автоматы в дата-центре стоят на разных участках пути электричества. Выглядеть они могут немного по-разному. Например, бывают такие, где сразу понятен статус работы:

Но чаще внешний вид автомата нам знаком из бытовых ситуаций: похожие стоят в подъездном щитке. Есть характерный рубильник: положение вверху — включен, положение внизу — выключен. У современных автоматов есть еще и окошко с цветовым маркером внизу: зеленый — выключено и не опасно, красный — включено, есть ток.

Наметанный глаз инженера сразу видит, что все выключено

При установке вертикально ошибки случаются крайне редко, так как этот принцип уже “в крови” у всех инженеров.

Но вот если автомат устанавливается горизонтально, то все становится не так однозначно. “Вкл.” должен быть слева или справа? Никаких стандартов на этот счет нет. В этой ситуации визуальная маркировка обязательна.

Бывает так, что горизонтальные выключатели в рамках одного щита стоят в разные стороны. Тогда  цвет “окошка” и красная полоса помогут быстро сориентироваться в экстренной ситуации

Электрощиты с пластроном. Пластрон — это защитная панель в щите, которая позволяет открыть не всю дверцу, а только секцию щита с автоматами. Выглядит вот так:

При проведении работ в щите инженер открывает пластрон: откручивает отверткой винты справа и слева. Но что тут может случиться: открутил отверткой правую часть, потом откручиваешь левую, а правая в это время просто провисает.

Если не придерживать пластрон рукой, при падении он может запросто отключить автомат в нижней секции — раньше такое уже бывало.

Слева пластрон уже провис так, что рискует отключить первые автоматы

Поэтому на обучении инженеров мы всегда рассказываем про такие случаи и отрабатываем правильную работу со щитом.

Технические причины

Статическое электричество. Разряд статики может погубить чувствительную электронику, поэтому в дата-центрах особенно внимательны к мерам борьбы со статическим электричеством. Например, в отраслевых стандартах легко найти графики зависимости статического электричества от влажности:

Пример выдержки из стандарта: пособие от ASHRAE

Именно поэтому в каждом дата-центре необходим постоянный климат. Еще для борьбы со статикой важны используемые материалы, поэтому хорошим тоном считается антистатический фальшпол, антистатическая упаковка и так далее.

Тем не менее мы слышали грустные истории про разряды статики в небольших серверных, где следить за постоянной влажностью сложнее. Можно посоветовать, например, специальные браслеты для снятия статического электричества с тела человека:

Найти нужный вариант легко по запросу “антистатический браслет”

Кабели питания. Иногда заказчики в погоне за экономией используют слишком тонкие некачественные шнуры для подключения оборудования. Такие кабели со временем не выдерживают нагрузку и прогорают.

Несмотря на срабатывание системы пожарообнаружения, локализовать стойку с паленым кабелем в большом зале бывает непросто. Был случай, когда найти прогоревший шнур по запаху смог только дежурный инженер с чувствительным обонянием.

Чаще всего в стойках используют кабели C13–C14, но у них бывает разное сечение. Шнуры с сечением 0,75 мм2 очень распространены, но в ЦОДе им не место. Мы рекомендуем кабели хотя бы от 1 мм2.

При неаккуратной установке оборудования случается, что кабель питания воткнут не до конца. В результате получаем плохой контакт с меньшей проводимостью и более высоким сопротивлением. А если этот контакт еще и регулярно задевают, то возникает место соединения, которое нагревается больше положенного. Рано или поздно на этом луче сработает вышестоящий автомат (и правильно сделает — ситуация пожароопасная).

В идеальной ситуации могут помочь кабели и разъемы от одного вендора, которые соединяются в прочную пару по принципу “папа-мама”:

В большом коммерческом ЦОДе редко удается использовать решения от одного вендора, но для небольшой серверной рекомендация может подойти.

Для всех остальных бывают специальные силиконовые накладки, которые работают как уплотнитель для кабелей разных типов:

Также стоит быть аккуратными с переходниками на кабель. Например, для кабелей питания иногда используются переходники с С19–С20 на С13–С14. Но что тут важно: разъем С19 рассчитан на 16А, а разъем С13 — на 10А. С использованием переходника допустимая сила тока меняется, важно про это не забыть.

Высокие температуры. Нормальный температурный режим важен не только для серверов, но и для автоматических выключателей. Мы уже рассказывали, как однажды в стойке АВР оказался зажат между серверами со стороны горячего коридора и не охлаждался нормально. Это свело АВР с ума:

Так же пагубно жара влияет на автоматы в щите. С учетом температурной коррекции автомат номиналом 25 А в жару выше 30 градусов легко может превратиться в автомат номиналом 23 А.

Зависимость номинального тока автомата от температуры. Слева в первом столбце ищем нужный номинал и смотрим, как он меняется при разной температуре (сверху)

Другими словами, в жарком помещении автомат выключится раньше. А значит, нужно учитывать место установки щита и следить за климатом в этом месте.

Не до конца изученные случаи. Когда в стойке случаются необъяснимые на первый взгляд сбои, мы можем повесить на нее портативный анализатор и попробовать зафиксировать проблему, если сбой повторится. Но если проблема “плавающая”, то можем так и не дождаться повторного случая.

Чтобы лучше анализировать такие случаи, мы постепенно переходим на постоянные анализаторы качества питания. Оснащаем ими лучи после ИБП во всех новых ЦОДах. Скоро они появятся и в давно построенных дата-центрах. В отличие от переносного анализатора постоянный помогает нам собрать информацию во время происшествия и лучше отследить переходные процессы.

Бонус: реальные падения стоек

При подготовке статьи мы спрашивали участников нашего чата про сбои питания, но многие вспоминали и о сбоях в результате буквального падения стойки.

Фото из интернета. В процессе написания статьи ни одна стойка в DataLine не пострадала =)

Так что о надежности фальшпола и правильном выборе стойки тоже забывать не стоит: Уроки стойкости, или Выбираем стойки для ИТ-оборудования правильно.

Итак, что делать, чтобы стойки не падали

  1. По возможности, не экономить на закупке оборудования и его модернизации.
  2. Не забывать про запасные блоки питания.
  3. Не перегружать оборудование выше номинальной мощности. При расчете нагрузки всегда учитывать аварийный режим и проверять, что при падении одного луча на втором не будет перегруза.
  4. Читать инструкции к оборудованию.
  5. Не использовать “тонкие” и дешевые кабели питания и внимательно проверять контакты при подключении.
  6. Не забывать про маркировку узлов подключения и следовать единой цветовой схеме для разных лучей питания.
  7. Следить за единой цветовой схемой для проводников в щитах и на соединительных разъемах.
  8. Следить за защитой от статического электричества: использовать специальные антистатические покрытия и снимать с себя статику перед работой в стойке.
  9. Не проводить важные работы в стойке по устной договоренности, зафиксировать задачу письменно.
  10. По возможности, не планировать важные работы в стойке на ночное время.
  11. Проводить важные работы в стойке вдвоем.
  12. Проверять подключение стойки под нагрузкой, перед тем как вводить ее в эксплуатацию. Можно привлечь к тесту специалистов вашего дата-центра: в согласованный период инженеры поочередно отключат автоматы и проверят корректность работы стойки. Так можно быть уверенными, что оборудование подключено правильно, нагрузки распределены верно и при сбое на одном луче стойка не обесточится.
  13. Вести статистику случаев падения и выделять наиболее типичные ошибки. Фиксировать эти ошибки в инструкциях, регулярно их пересматривать и проводить учения на отработку навыков обращения со стойкой и щитами.
Расскажите друзьям и коллегам о статье

Последние статьи

Как мы создали мощный инструмент для мониторинга процессов в системе резервного копирования на основе Grafana.

Андрей Александров

Фотоэкскурсия по первой очереди дата-центра в Медведково.

Алексей Приезжев

Рассказываем, как проверять ресурсы ВМ на ошибки и даем ключевые метрики, на которые можно опираться.

DataLine