А продемонстрируйте, или Как мы проходили аудит Operational Sustainability в Uptime Institute

Показываем, как мы подтверждаем компетенции по обслуживанию и управлению дата-центром.

02 апреля  • 
Руководитель отдела эксплуатации залез в люк подземного топливохранилища, чтобы показать маркировку на электромагнитном клапане

В начале февраля наш самый большой дата-центр Tier III NORD-4 прошел повторную сертификацию Uptime institute (UI) по стандарту Operational Sustainability. Сегодня расскажем, на что смотрят аудиторы и с какими результатами мы финишировали.

Для тех, кто с дата-центрами на «вы», кратко пройдемся по матчасти. Tier Standards оценивает и сертифицирует дата-центры на трех этапах:

  • проект (Dеsign): проверяется пакет проектной документации.Тут как раз присваиваются всем известные Tier. Всего их 4: Tier I–IV. Последний, соответственно, самый высокий.
  • построенный объект (Facility): проверяется инженерная инфраструктура дата-центра и ее соответствие проекту. Дата-центр проверяют под полной проектной загрузкой с помощью множества тестов примерно такого содержания: один из ИБП (ДГУ, чиллеров, прецизионных кондиционеров, распределительных шкафов, шинопроводов и т.п.) выводится из эксплуатации на обслуживание или ремонт, при этом отключается городское энергоснабжение. ЦОД уровня Tier III и выше должен справиться с ситуацией без каких-либо последствий для полезной ИТ-нагрузки.

    Facility можно сдавать, если дата-центр уже прошел сертификацию Dеsign.

    NORD-4 получил свой сертификат Design в 2015 году, а Facility —  в 2016.

  • эксплуатация (Operational Sustainability). По сути, самая главная и сложная сертификация. Она в комплексе оценивает процессы и компетенции оператора по обслуживанию и управлению дата-центром с установленным уровнем Tier (чтобы сдать Operational Sustainability, вы уже должны иметь сертификат Facility). Ведь без правильно выстроенных процессов эксплуатации и квалифицированной команды даже дата-центр Tier IV может превратиться в бесполезное здание с очень дорогим оборудованием.

    Здесь тоже свои уровни: Bronze, Silver и Gold. На последней ресертификации финишировали с результатом 88,95 из 100 возможных баллов, и это Silver. До Gold не хватило самую малость — 1,05 балла.

Как проверить, что нужные процессы выстроены и работают как надо? Тем более, как сделать это за два дня — именно столько идет повторная сертификация. Если кратко, то сертификация строится на кропотливом сопоставлении написанного в регламентах, рассказов «как все устроено» и реальных практик. Информация о последних добывается из обходов дата-центра и бесед с инженерами дата-центра — «очных ставок», как мы их ласково называем. Вот на что смотрят.

Команда

В первую очередь аудиторы UI проверяют, хватает ли в дата-центре обслуживающего персонала. Берут штатное расписание, график дежурства и выборочно сверяют с отчетами смен и данными СКУД, чтобы убедиться, что нужное количество инженеров действительно было в тот день на площадке.

Также аудиторы пристально смотрят на количество часов переработки. Такое иногда случается, когда заезжает крупный клиент и одновременно нужно поставить десятки стоек. В такие моменты ребята из других смен приходят на помощь, и им за это выплачивают дополнительные деньги.

В смене на NORD-4 работают 7 инженеров: 6 дежурных и один старший инженер. Это те, кто следит за мониторингом 24х7, встречают клиентов, помогают с установкой оборудования и прочими штатными запросами. Это первая линия клиентской техподдержки. В их же обязанности входит фиксация аварийных ситуаций и эскалация на специализированных инженеров. За работой инженерной инфраструктуры следят отдельные люди — дежурные по инфраструктуре. Также 24х7.

Директор по производству и старший по площадке NORD рассказывает аудиторам, сколько человек работает на площадке прямо сейчас
Директор по производству и старший по площадке NORD рассказывает аудиторам, сколько человек работает на площадке прямо сейчас

Когда с численностью разобрались, проверяют квалификацию команды. Аудиторы случайным образом просматривают личные дела инженеров, чтобы убедиться, что у них есть необходимые дипломы, сертификаты, разрешающие документы (например, удостоверения по электробезопасности) для работы на данной позиции.

А еще проверяют то, как мы обучаем персонал. Наша система подготовки новых дежурных инженеров еще во время прошлого аудита впечатлила специалистов UI. Для них мы проводим трехмесячный курс подготовки в режиме оплачиваемой стажировки, в ходе которой знакомим их с процессами и принципами работы именно в нашем дата-центре.

Уже работающие инженеры тоже должны регулярно проходить тренинги, в том числе и по работе в аварийных ситуациях. Аудиторы обязательно проверят учебные программы и материалы таких тренингов, а еще выборочно проэкзаменуют инженеров. Переключаться на ДГУ никого не будут просить, а вот рассказать пошагово, что надо делать при отключении городского электроснабжения, попросят. По результатам аудита мы будем приводить все программы обучения и тренировок к единому стандарту, чтобы они не отличались для разных команд.

Показываем аудиторам комнату отдыха для сменных инженеров
Показываем аудиторам комнату отдыха для сменных инженеров

Эксплуатация и обслуживание инженерных систем

В этом большом разделе аудита мы показываем, что все инженерное оборудование и системы получают регулярное техническое обслуживание по рекомендуемому вендорами графику, на складе есть необходимый ЗИП, действующие договоры с подрядчиками на обслуживание, а для каждой операции с оборудованием прописаны свои процедуры и алгоритмы работы на разные случаи.

MMS. Когда эксплуатируешь десятки ИБП, ДГУ, кондиционеров и прочего, нужно где-то собирать всю информацию об этом хозяйстве. Вот примерно такое досье создается на каждую единицу оборудования у нас:

  • модель и серийный номер;
  • маркировка;
  • технические характеристики и настройки;
  • место установки;
  • даты производства, ввода в эксплуатацию, окончания гарантии;
  • договоры на обслуживание;
  • расписание и история ТО;
  • и вся «история болезни» — поломки, ремонты.

Как и где собирать всю эту информацию, каждый оператор дата-центра решает сам. UI не ограничивает в инструментах. Это может быть простая Excel (мы начинали с такого) или самописная Maintenance Management System (MMS), как у нас теперь. Кстати, сервис-деск, складской учет, сетевой журнал, мониторинг тоже самописные.

Вот такое «личное дело» есть на каждую единицу оборудования
Вот такое «личное дело» есть на каждую единицу оборудования

Свои практики по этой части мы показывали в том числе на примере вот этого инфраструктурного ИБП (на фото), который пожертвовал одну из своих деталей ИБП, обслуживающему ИТ-нагрузку. Да, по стандарту таким «донорством» может заниматься только инфраструктурное оборудование, которое питает кондиционеры, аварийное освещение, но не ИТ-нагрузку.

После аудиторы попросили показать соответствующий тикет в Service Desk:

И профиль ИБП в MMS:

ЗИП. Для своевременного обслуживания и аварийных ремонтов инженерного оборудования мы держим свой ЗИП. Есть общий склад с крупными запчастями для оборудования и небольшие шкафы с ЗИП в инженерных помещениях (чтобы не нужно было далеко бежать).

На фото: мы проверяем наличие ЗИП для ДГУ. Насчитали 12 фильтров. Потом сверялись с данными в MMS.

Аналогичное упражнение проделали на основном складе, где хранятся крупные запчасти: компрессоры, контроллеры, автоматика, вентиляторы, пароувлажнители и еще сотни позиций. Выборочно переписали маркировки и «пробили» их по MMS.

Данные по запасам ЗИП. Красное — это то, чего не хватает и нужно докупить
Данные по запасам ЗИП. Красное — это то, чего не хватает и нужно докупить

Предупредительное обслуживание. Помимо ТО и ремонтов UI рекомендует заниматься предупредительным обслуживанием. Оно помогает превратить потенциальную аварию в плановый ремонт. По каждому параметру мы настраиваем пороговые значения в мониторинге. Если они превышаются, ответственные получают алармы и предпринимают необходимые действия. Например, мы:

  • Проверяем тепловизором электрические щиты, чтобы вовремя найти дефект в электроустановках: плохой контакт, локальный перегрев проводника или автомата. 
  • Следим за показателями вибрации и потребляемого тока насосов системы холодоснабжения. Это позволяет вовремя выявить отклонения и без спешки запланировать замену деталей.
  • Делаем анализы топлива и масла ДГУ, компрессоров.
  • Тестируем гликоль в системе холодоснабжения на концентрацию.
График вибрации насосов до и после ремонта
График вибрации насосов до и после ремонта

Работа с подрядчиками. ТО и ремонты оборудования делают внешние подрядчики. С нашей же стороны есть отдельные специалисты по ДГУ, кондиционерам, ИБП, которые контролируют их работу. Они проверяют, есть ли у подрядчиков необходимые инструменты и материалы для ремонтных работ/ТО, профессиональные сертификаты, корочки электробезопасности, допуски. Они же принимают все работы.

Примерно так выглядит чек-лист для приемки работ по ТО кондиционера
Примерно так выглядит чек-лист для приемки работ по ТО кондиционера
В бюро пропусков проверяем, оформлены ли пропуска на авторизованных представителей подрядчиков, проходили ли они в указанное время ТО и ознакомились ли они с правилами
В бюро пропусков проверяем, оформлены ли пропуска на авторизованных представителей подрядчиков, проходили ли они в указанное время ТО и ознакомились ли они с правилами

Документация. Выстроенные процессы по обслуживанию систем и оборудования —  это полдела. Все процедуры, которые выполняются человеком в дата-центре, должны быть задокументированы. Цель этого простая: чтобы все не замыкалось на одном конкретном человеке и в случае аварии любой инженер мог взять понятную инструкцию и сделать все необходимые операции для ее ликвидации.

У UI своя методология по такой документации.

Для простых и повторяющихся действий составляют стандартные эксплуатационные процедуры (Standard Operational Procedure, SOP). Например, SOP’ы есть для включения/выключения чиллера, постановки ИБП на bypass.

Для технического обслуживания или сложных операций, например, замены батарей у ИБП, создаются процедуры по ведению обслуживающих работ (Methods of Procedures, MOP). Они могут включать в себя SOP’ы. У каждого типа инженерного оборудования должны быть свои MOP’ы.

Наконец, есть аварийные эксплуатационные процедуры (Emergency Operating Procedures, EOP) — инструкции на случай аварии. Составляется список конкретных аварийных ситуаций, и для них пишутся инструкции. Вот часть списка аварийных ситуаций, по которым подробно расписываются признаки аварии, действия, ответственные лица и лица для уведомления:

  • отключение городского электроснабжения: ДГУ запустились/не запустились;
  • аварии на ИБП; 
  • аварии на системе мониторинга ЦОД;
  • перегрев машинного зала;
  • протечка системы холодоснабжения;
  • авария на сетевом и вычислительном оборудовании;

и прочее.

Составить такой объем документации — сама по себе трудоемкая работа. Еще сложнее поддерживать ее в актуальном состоянии (это, кстати, аудиторы тоже проверяют). И главное — персонал должен знать эти инструкции, работать по ним и вносить улучшения при необходимости.

Да, инструкции должны быть доступны там, где они могут понадобиться, а не просто пылиться в архивах
Да, инструкции должны быть доступны там, где они могут понадобиться, а не просто пылиться в архивах
Отметки об изменениях в регламенте обслуживания инженерных систем дата-центра
Отметки об изменениях в регламенте обслуживания инженерных систем дата-центра

В ходе аудита также смотрят на техническую документацию по системам, исполнительную и рабочую документацию, акты сдачи систем в эксплуатацию. 

Маркировка. Во время обхода по дата-центру проверяли ее везде, куда только могли дотянуться. Куда не могли дотянуться — дотягивались со стремянки:). Смотрели на ее наличие на каждом щите, автомате, клапане. Проверяли уникальность, однозначность и соответствие актуальным схемам исполнительной документации. На фото ниже: мы в насосной топливохранилища сравниваем маркировку на электромагнитных клапанах со схемой исполнительной документации.

С ней все сошлось, а вот с местной «декоративной» аксонометрической схемой на стене в одном параметре не совпало.

В помещениях дата-центра также должны висеть схемы расположенных там систем. В случае аварий они помогают быстро сориентироваться, где что находится, и принять информированное решение. На фото, например, однолинейная схема в помещении ГРЩ.

Актуальность схем проверяли так: называли маркировку элемента на схеме и просили показать «на натуре».

Вот тут аудитор фотографирует настройки (уставки) расцепителя вводного автомата ГРЩ, чтобы потом сверить с показателями на однолинейной схеме в бумажном и электронном экземплярах. На одном из автоматов, QF-3, показатель не совпал с бумажной схемой, и мы заработали штрафной балл. Теперь два инженера будут проверять на соответствие маркировку в однолинейных схемах с фактом.

Это далеко не все, что проверяли аудиторы в части процессов обслуживания. Вот что еще было на повестке:

  • система мониторинга. Тут мы заработали плюсы в карму хорошей визуализацией, наличием мобильного приложения и ситуационными экранами, расставленными в коридорах дата-центров. Тут подробно писали про то, как у нас устроен мониторинг.
    Вот такой ЦУП с наглядной информацией о состоянии основных инженерных систем NORD-4 и других наших дата-центров работает на площадке
    Вот такой ЦУП с наглядной информацией о состоянии основных инженерных систем NORD-4 и других наших дата-центров работает на площадке
  • планирование жизненного цикла инженерного оборудования;
  • управление мощностями (capacity management);
  • бюджетирование (немного рассказывали тут);
  • процедура по анализу аварий;
  • процесс приемки, ввода в эксплуатацию и тестирования оборудования (про тесты писали тут).

На что еще смотрел UI

Безопасность и контроль доступа. В ходе аудита также проверяют работу систем охраны и безопасности. Например, аудитор попробовал попасть в одно из помещений, куда у него нет доступа, а потом проверил, отразилось ли это в системе СКУД и было ли оповещение об этом у охраны (спойлер — было).

Если в наших дата-центрах дверь в любое помещение остается открытой более двух минут, то на посту охраны срабатывает оповещение. Чтобы проверить это, аудиторы подперли одну из дверей огнетушителем. Правда, сирены мы так и не дождались —  охрана увидела неладное через видеокамеры и прибыла на «место преступления» раньше.

Порядок и чистота. Аудиторы смотрят, нет ли пыли, хаотично валяющихся коробок от оборудования, с какой периодичностью убирают помещения. Вот тут, например, аудиторов заинтересовал неопознанный объект в вентиляционном коридоре. Это блок от системы вентиляции, который уже готовился занять свое место. Но все равно попросили подписать.

Еще в тему порядка в дата-центре — вот такие шкафы со всеми необходимыми инструментами для аварийных работ на оборудовании стоят в помещении ГРЩ.

Месторасположение. Дата-центр оценивают по условиям местоположения — нет ли поблизости военных баз, аэропортов, рек, вулканов и прочих опасных объектов. На фото мы как раз показываем, что с момента прошлой сертификации в 2017 году вокруг дата-центра не выросло никаких АЭС и нефтехранилищ. Зато вон там строится новый дата-центр NORD-5, которому тоже предстоит пройти все ступени сертификации Uptime Institute Tier III. Но это уже совсем другая история.

Расскажите друзьям и коллегам о статье
  • Поделиться
  • Поделиться
  • Поделиться

Последние статьи

06 августа
Кирилл Шадский

Как настроить перенос работающих ВМ без простоя внутри кластера и между кластерами.

29 июля
Евгений Парфенов

Как мы делали интеллектуального помощника на базе Encog для диспетчеров первой линии поддержки.

22 июля
DataLine

Комментарии