Невыдуманные истории про сеть: как я учил физику на своих и чужих ошибках

Подборка историй про физику сетей и практические правила сетевой жизни.

02 июля 2020  • 

Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетями более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах.

На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и “любовью” пользователей.  Зато такая школа жизни запоминается раз и навсегда.

Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике.

Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.

#1. Судьба энтерпрайза висит на патч-корде

Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.

Доблестная техподдержка бежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен!

До важного совещания 15 минут.

Как назло, органайзер переполнен. Нужно освободить место и “перекоммутировать” некоторые провода. Расчищаем поляну, вставляем все обратно.

Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.

До важного совещания в той самой конференц-системе — 10 минут.

Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.

...На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.

Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.

Какой была реакция участников, догадаться нетрудно.

Правила патч-кордов:

  • Всегда использую готовые патч-корды с защитой замка — и никакого самопала. Если язычок сломан, лучше не лениться и заменить патч-корд.
  • Если все-таки приходится использовать самопал как временное решение, использую качественный многожильный кабель (stranded или patch) и защитные колпачки.
  • Не советую проводить работы, если намечается важная задача, где лучше ничего не трогать. В крайнем случае, нужно четко понимать, что вы делаете. Также есть известная примета, что работы в пятницу, особенно во второй половине дня, — к “веселым” выходным.

#2. “Обеднёнка”

Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус.

Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?

Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша “омеднёнка” испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины “омеднёнки”.

Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь.

Правила витой пары:

  • Нигде не использую “омеднёнку” (или “обеднёнку”, как я ее называю). Основное преимущество — цена, и на этом все плюсы заканчиваются.

    Если пустить питание по PoE, можно получить непредсказуемые эффекты, вплоть до выхода оборудования из строя. Как правило, “омеднёнка” — это двухпарка, поэтому скорости больше 100 мегабит не видать. Температура и влажность в шкафах бывает разной, контакты окисляются очень быстро, и линки падают на 10 мегабит.

  • Если хозяйство досталось в наследство, проверить витую пару очень просто. Если “омеднёнка” стальная — магнитом. Если алюминиевая — смотрим на торец разъема или достаем кабель из бухты и смотрим маркировку.

#3. Мой друг “коротыш”

В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное “быстрее-быстрее” и подключился без проверки.

Моргнул раз, и POE-панель выключилась.
Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников.
Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей.

В это время подключенный сотрудник озадаченно склонился над блоком питания.  Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать.

Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.

Правило PoE:

Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться.

#4. Модный* бизнес-центр

Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.

Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать.

Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды.

Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация:

Представителям бизнес-центра пришлось признать ошибку и переварить все кабели.


* то ли одномодный, то ли многомодный

Правила оптики:

  • Не верю написанному на бумаге и проверяю все сам. Типы оптических кабелей проверяю обязательно, но правило касается не только оптики.
  • Использую ВОЛС нужного класса OM (2-5) и не смешиваю разные OM. Иначе нужно быть готовым к работе на понижение.
  • Перед приемкой ВОЛС получаю результаты тестирования рефлектометра от специалистов, которые варили муфты и кросс.

#5. Еще про оптику и патч-корды

Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе.

Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.

Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.

Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго.

Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.

Правило запасных принадлежностей:

Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.

#6. Бродкастовый шторм и телефоны

Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом влане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком.

Именно это и произошло. Не без помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый  шторм.

После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились.   Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция, — иначе меняй работу.

Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные “сетка подтормаживала” и отчеты с десятого раза отправлялись.

Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.

Правила настройки оборудования:

  • Слежу, чтобы мониторинг был всегда.
  • Правильно настраиваю storm control на BMU traffic.
  • Если у вас до сих пор есть STP*, его тоже нужно настраивать.
  • Оборудование должно быть управляемым.
  • Если эксперименты на проде неизбежны, проверяю что изменилось во время и после эксперимента, а не просто ухожу домой.

#7. Поиски утраченного линка

Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:

Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.

Правила стоек и кроссов:

  • Всегда использую органайзеры или угловые панели. Понятно, это стоит денег, но потом будет проще разобраться, что к чему.
  • Маркирую стойки, панели, кабель, патчи, даже всю активку.
  • Использую стяжки и липучки при укладывании и закреплении кабелей для удобного доступа к оборудованию и лучшей вентиляции в стойке. Для оптики использую ТОЛЬКО липучки.
  • Стойки выбираю под задачу, но если количество оборудования нельзя спланировать заранее, беру высокий шкаф на 42U.
  • Обязательная земля в каждом шкафу и правильный монтаж коннекторов экранированной витой пары.

В идеале стремлюсь вот к этому:

Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?

Расскажите друзьям и коллегам о статье
  • Поделиться
  • Поделиться
  • Поделиться

Последние статьи

15 апреля
Сергей Жильцов

Главные вопросы при планировании инфраструктуры виртуальных рабочих столов.

08 апреля
Николай Продайвода

Как организовать гарантированный канал доставки трафика, даже если нет возможности подвести оптику и закупить дорогостоящее оборудование.

25 марта
Вячеслав Нечаев

Комментарии

Подпишитесь на нашу рассылку

Получайте свежие и полезные материалы и приглашения на наши мероприятия