Невыдуманные истории про сеть: как я учил физику на своих и чужих ошибках

Подборка историй про физику сетей и практические правила сетевой жизни.

02 июля  • 

Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетями более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах.

На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и “любовью” пользователей.  Зато такая школа жизни запоминается раз и навсегда.

Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике.

Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.

#1. Судьба энтерпрайза висит на патч-корде

Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.

Доблестная техподдержка бежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен!

До важного совещания 15 минут.

Как назло, органайзер переполнен. Нужно освободить место и “перекоммутировать” некоторые провода. Расчищаем поляну, вставляем все обратно.

Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.

До важного совещания в той самой конференц-системе — 10 минут.

Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.

...На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.

Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.

Какой была реакция участников, догадаться нетрудно.

Правила патч-кордов:

  • Всегда использую готовые патч-корды с защитой замка — и никакого самопала. Если язычок сломан, лучше не лениться и заменить патч-корд.
  • Если все-таки приходится использовать самопал как временное решение, использую качественный многожильный кабель (stranded или patch) и защитные колпачки.
  • Не советую проводить работы, если намечается важная задача, где лучше ничего не трогать. В крайнем случае, нужно четко понимать, что вы делаете. Также есть известная примета, что работы в пятницу, особенно во второй половине дня, — к “веселым” выходным.

#2. “Обеднёнка”

Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус.

Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?

Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша “омеднёнка” испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины “омеднёнки”.

Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь.

Правила витой пары:

  • Нигде не использую “омеднёнку” (или “обеднёнку”, как я ее называю). Основное преимущество — цена, и на этом все плюсы заканчиваются.

    Если пустить питание по PoE, можно получить непредсказуемые эффекты, вплоть до выхода оборудования из строя. Как правило, “омеднёнка” — это двухпарка, поэтому скорости больше 100 мегабит не видать. Температура и влажность в шкафах бывает разной, контакты окисляются очень быстро, и линки падают на 10 мегабит.

  • Если хозяйство досталось в наследство, проверить витую пару очень просто. Если “омеднёнка” стальная — магнитом. Если алюминиевая — смотрим на торец разъема или достаем кабель из бухты и смотрим маркировку.

#3. Мой друг “коротыш”

В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное “быстрее-быстрее” и подключился без проверки.

Моргнул раз, и POE-панель выключилась.
Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников.
Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей.

В это время подключенный сотрудник озадаченно склонился над блоком питания.  Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать.

Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.

Правило PoE:

Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться.

#4. Модный* бизнес-центр

Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.

Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать.

Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды.

Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация:

Представителям бизнес-центра пришлось признать ошибку и переварить все кабели.


* то ли одномодный, то ли многомодный

Правила оптики:

  • Не верю написанному на бумаге и проверяю все сам. Типы оптических кабелей проверяю обязательно, но правило касается не только оптики.
  • Использую ВОЛС нужного класса OM (2-5) и не смешиваю разные OM. Иначе нужно быть готовым к работе на понижение.
  • Перед приемкой ВОЛС получаю результаты тестирования рефлектометра от специалистов, которые варили муфты и кросс.

#5. Еще про оптику и патч-корды

Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе.

Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.

Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.

Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго.

Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.

Правило запасных принадлежностей:

Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.

#6. Бродкастовый шторм и телефоны

Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом влане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком.

Именно это и произошло. Не без помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый  шторм.

После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились.   Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция, — иначе меняй работу.

Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные “сетка подтормаживала” и отчеты с десятого раза отправлялись.

Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.

Правила настройки оборудования:

  • Слежу, чтобы мониторинг был всегда.
  • Правильно настраиваю storm control на BMU traffic.
  • Если у вас до сих пор есть STP*, его тоже нужно настраивать.
  • Оборудование должно быть управляемым.
  • Если эксперименты на проде неизбежны, проверяю что изменилось во время и после эксперимента, а не просто ухожу домой.

#7. Поиски утраченного линка

Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:

Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.

Правила стоек и кроссов:

  • Всегда использую органайзеры или угловые панели. Понятно, это стоит денег, но потом будет проще разобраться, что к чему.
  • Маркирую стойки, панели, кабель, патчи, даже всю активку.
  • Использую стяжки и липучки при укладывании и закреплении кабелей для удобного доступа к оборудованию и лучшей вентиляции в стойке. Для оптики использую ТОЛЬКО липучки.
  • Стойки выбираю под задачу, но если количество оборудования нельзя спланировать заранее, беру высокий шкаф на 42U.
  • Обязательная земля в каждом шкафу и правильный монтаж коннекторов экранированной витой пары.

В идеале стремлюсь вот к этому:

Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?

Расскажите друзьям и коллегам о статье
  • Поделиться
  • Поделиться
  • Поделиться

Последние статьи

06 августа
Кирилл Шадский

Как настроить перенос работающих ВМ без простоя внутри кластера и между кластерами.

29 июля
Евгений Парфенов

Как мы делали интеллектуального помощника на базе Encog для диспетчеров первой линии поддержки.

22 июля
DataLine

Комментарии