Как устроен мониторинг энергоснабжения в дата-центре

Вторая часть серии, посвященной мониторингу инженерной инфраструктуры.

23 марта  •  Кирилл Шадский
Одна из схем для мониторинга системы энергоснабжения в дата-центре OST-2

Продолжаем серию статей про работу систем мониторинга инженерной инфраструктуры в наших дата-центрах. В первой части разобрали теоретические моменты, сегодня обратимся к практике. Начнем с самой критичной системы – энергоснабжения. Перед прочтением рекомендуем освежить знания про устройство электропитания в дата-центре.

Особенности мониторинга системы энергоснабжения

В мониторинге энергоснабжения есть свои нюансы. Вот несколько общих советов для тех, кто только собирается проектировать и настраивать систему.

Мониторьте все что можно. В системе энергоснабжения нет неважных участков. Отслеживайте основные параметры каждого элемента системы: от трансформатора до PDU в стойке.

Мониторьте систему в целом. Мало просто поставить все оборудование на мониторинг. Важно отобразить существующие взаимосвязи между всеми элементами системы. Это поможет быстрее выявлять неполадки и не запутаться в десятках оповещений об ошибках.

Принципиальные схемы, карты и прочая визуализация лучше всего подойдут для этих целей. Картинка в начале поста – как раз пример такой схемы. Когда в стойке пропадет питание, с помощью таких схем будет легче понять, что стало причиной аварии.

Опрашивайте оборудование как можно чаще. Частый опрос поможет не пропустить важные события в жизни системы энергоснабжения: отключение городского питания, ошибки, по которым не завелся ДГУ. Такие критичные узлы, как главный распределительный щит, ДГУ, ИБП, рекомендуем опрашивать каждую секунду.

Мониторьте балансировки по фазам и парные нагрузки. Это производные показатели системы энергоснабжения. Они рассчитываются непосредственно в системе мониторинга на базе информации, полученной от оборудования.

Собирайте статистику. Только онлайн данных и оповещений мало, нужно собирать долгосрочную статистику. Она пригодится для многих вещей – от управления мощностями (capacity management) до расчета бюджета на закупку ЗИП.

Пара слов о нашем мониторинге

Система работает на базе open-source решения Nagios. Он собирает значения параметров оборудования и отправляет уведомления при достижении пороговых значений. Всего развернуто 8 стендов с Nagios.

Информация по 7 дата-центрам и всем системам мониторинга собирается в едином интерфейсе на базе Thruk.

Веб-интерфейс Thruk
Веб-интерфейс Thruk

Статистику и графики на ее основе строим с помощью встроенных служб Nagios и Cacti.

Еще один способ представления информации – принципиальные схемы. Такой тюнинг процесса структурирует и упрощает восприятие большого объема данных. Целостную картину можно получить при одном взгляде на монитор.

Схема для мониторинга энергоцентра и машинных залов дата-центра NORD-4
Схема для мониторинга энергоцентра и машинных залов дата-центра NORD-4

Давайте посмотрим, что, как и на каком оборудовании можно отслеживать.

Трансформаторы

При высокой нагрузке трансформаторы нагреваются. Если произойдет перегрев, то сработает защита и трансформатор выключится. Благодаря мониторингу мы можем вовремя отследить перегрев и принять необходимые меры.

Если трансформатор еще не запущен в эксплуатацию, то на корпус можно установить термоэлектрические пирометры. В уже работающих трансформаторах используем дистанционные инфракрасные пирометры.

Так выглядят инфракрасные пирометры
Так выглядят инфракрасные пирометры

Вводы на ГРЩ

Мониторинг на этом участке системы дает нам информацию о наличии электропитания от города и его характеристики по току, напряжению.

От каждого трансформатора в главный распределительный щит (ГРЩ) приходит три медных шины. Для получения данных о токах и напряжении на каждую шину устанавливается трансформатор тока. Его первичная обмотка подключена к шине, а вторичная обмотка замыкается на измерительный прибор – анализатор сети.

Аналогичным образом трансформатор тока крепится на шине в щите ДГУ.

Черные кольца на медных шинах – это и есть трансформаторы тока
Черные кольца на медных шинах – это и есть трансформаторы тока
Анализатор сети крепится к дверце распределительного щита
Анализатор сети крепится к дверце распределительного щита

Система мониторинга опрашивает анализаторы сети по протоколу ModBus. Данные поступают на сервер мониторинга и отображаются в едином веб-интерфейсе Thruk.

Схема подключения анализаторов сети к системе мониторинга
Схема подключения анализаторов сети к системе мониторинга

Аналогичным способом устроен мониторинг в остальных распределительных щитах (ЩР). Для каждой секции ЩР устанавливается свой анализатор, и суммарный – на весь ЩР.

Трансформаторы тока в распределительном щите машинного зала
Трансформаторы тока в распределительном щите машинного зала
Анализаторы сети в распределительном щите машинного зала
Анализаторы сети в распределительном щите машинного зала

От анализаторов сети мы получаем порядка 20 параметров. Вот основные:

  • ток по фазам;
  • линейное и фазное напряжение;
  • частота;
  • мощность активная, реактивная и полная.
Некоторые параметры по ГРЩ в системе мониторинга
Некоторые параметры по ГРЩ в системе мониторинга

Все основные параметры по ГРЩ отображаются на принципиальных схемах.

Гарантированное электроснабжение

По этой системе мы отслеживаем состояние щитов ДГУ, топливных баков и, конечно же, самих ДГУ. Данные от дизельных электростанций система мониторинга получает от панели управления ДГУ.

Панель управления ДГУ
Панель управления ДГУ
Схема подключения ДГУ к системе мониторинга
Схема подключения ДГУ к системе мониторинга

Основные параметры ДГУ:

  • состояние: в авторежиме, в работе;
  • количество оборотов двигателя в минуту;
  • наличие ошибок в работе.

Обязательно отслеживаем уровень топлива в баках ДГУ, чтобы не остаться без горючего в час Х. Комплектация многих баков уже включает в себя механические датчики уровня топлива, которые подходят только для визуального мониторинга: к баку нужно подойти, чтобы увидеть, сколько там осталось. Это тоже вариант, но, чтобы избавиться от человеческого фактора и автоматизировать процесс, используйте цифровые датчики.

Список основных параметров ДГУ в системе мониторинга
Список основных параметров ДГУ в системе мониторинга

Бесперебойное энергоснабжение

Если в ИБП есть модуль для удаленного мониторинга, то сбор данных не представляет сложности: просто настраиваем опрос бесперебойников по протоколу SNMP.

ИБП изнутри. Красным отмечен модуль мониторинга, который подключается к серверу мониторинга
ИБП изнутри. Красным отмечен модуль мониторинга, который подключается к серверу мониторинга

Основные отслеживаемые параметры:

  • режим работы: питание от города/ДГУ, питание от батарей, работа на байпасе;
  • вольтаж и токи на входе и на выходе ИБП;
  • внутренняя температура ИБП.

Обычно ИБП умеют мониторить и параметры аккумуляторных батарей (АКБ):

  • вольтаж батарей;
  • уровень заряда батарей;
  • оценка времени автономной работы на батареях;
  • температура батарей.
Параметры ИБП в системе мониторинга
Параметры ИБП в системе мониторинга

Мониторинг PDU и АВР в стойке

Мониторинг PDU позволяет зафиксировать пропадание питания по одному или нескольким лучам в стойке с оборудованием. Для этого достаточно использовать PDU с возможностью опроса по протоколу SNMP. PDU с управлением и специализированным софтом тоже можно, но в этом случае добавится отдельный интерфейс.

То же самое касается и мониторинга стоечного АВР.

Подключение PDU к системе мониторинга
Подключение PDU к системе мониторинга

Производные параметры: балансировка нагрузок по фазам и лучам

На основе данных, полученных от анализаторов сети в распределительных щитах, модулей мониторинга ИБП, PDU, в системе мониторинга рассчитывается несколько производных параметров.

Нагрузка по фазам. Если нагрузка распределена равномерно по фазам, тогда мощность кабеля и автоматов будет использоваться эффективно. Когда одна или две фазы перегружены, а одна или две недогружены, то возникает так называемый перекос фаз. Это, как минимум, будет означать, что имеющаяся мощность используется не оптимально. В худшем случае это приведет к отключению автомата и перегреву кабеля.

Нагрузка по фазам в системе мониторинга
Нагрузка по фазам в системе мониторинга

Парные нагрузки на двух лучах. В наших дата-центрах резерв системы энергоснабжения 2N.

К каждой стойке подходит два независимых луча питания. И если что-то происходит с одним из лучей питания, другой берет на себя нагрузку вышедшего из строя. Получается, что каждый луч должен быть загружен только наполовину от номинальной мощности. Только в этом случае оставшийся в строю луч выдержит двойную нагрузку.

Для этого мы отслеживаем, чтобы нагрузка на одном луче не превышала более 50 % от номинала, а суммарная нагрузка на двух лучах – 100 % от номинала.

Если не отслеживать этот параметр, то можно “проморгать” ситуацию, когда у нас не останется резерва по второму лучу, так как парная нагрузка превышает номинальную мощность автомата.

Оба принципа должны соблюдаться одновременно. Рассмотрим это на практике. Допустим, у нас есть стойка с трехфазным питанием 32 А на фазу. Оборудование подключается к двум PDU. У каждого PDU по три секции (B1, B2, B3), каждая секция соответствует фазе, т.е. мы имеем дело с трехфазными PDU. Если мы соблюдаем вышеописанные правила, то получается, что суммарная нагрузка по двум лучам должна быть ниже 32 А (см. рисунок ниже).

Вроде все понятно, но давайте рассмотрим вот такой случай. В эту же стойку подключаем оборудование (см. рисунок ниже). Казалось бы, из 19,5 кВТ (три секции по 6,5 кВт) у нас всего занято 11 кВТ, и можно спать спокойно. Но в какой-то момент у нас выключается один луч, и вся стойка остается без питания. Произошло следующее. Мы перегрузили первую секцию (фазу) на одном из лучей. Суммарная нагрузка оказалась больше номинальной. Когда один из лучей взял на себя эту чрезмерную нагрузку, автомат выбило.

Парные нагрузки на первую секцию PDU (B1) в системе мониторинга
Парные нагрузки на первую секцию PDU (B1) в системе мониторинга

Так парная нагрузка измеряется на уровне стойки. По такому же принципу мы отслеживаем:

  • парные нагрузки в секциях распределительных щитов машинных залов;
  • парные нагрузки на ЩР в целом;
  • парные нагрузки на ИБП.
Парные нагрузки на ИБП в системе мониторинга
Парные нагрузки на ИБП в системе мониторинга

На этом остановимся. Задавайте вопросы в комментариях. Если у вас есть вопросы о балансировке нагрузки в стойках или распределительных щитах, пишите в комментариях, в личку или на consulting@dtln.ru.

В следующей статье поговорим про мониторинг холодоснабжения.

Еще статьи про мониторинг и энергоснабжение в дата-центре:

Расскажите друзьям и коллегам о статье
  • Поделиться
  • Плюсануть
  • Поделиться

Подписка на новые статьи

Новые статьи почтой

Пишем редко, но по делу

Последние статьи

Учим плохому резервному копированию. Не делайте так.

20 апреля  •  Александр Васильев

Рассказываем, как устроено резервное копирование в Cloud-V и как создавать задания на бэкап виртуальных машин.

06 апреля  •  Сергей Груздов

Раскрываем секреты закулисья своего маленького крепостного театра DataLine.

31 марта  •  Яна Такмазис

Комментарии