ТСПУ: год эксплуатации. Опыт.

Прошёл ровно год с момента установки и запуска ТСПУ на нашей сети. В этой статье – опыт эксплуатации, особенности и другие подробности.

Читать статью: “Установка ТСПУ” о том, как происходит процесс и о том, на какие важные технические детали надо обратить внимание.

Стабильность комплекса

По-честному, надо отметить, что оборудование работает стабильно. Без сбоев и непонятных провалов. Если бы не изменения в фильтрах, которые накатываются без уведомления, то про него можно было бы и забыть.

Единственное, что иногда приходится делать – писать оперативному дежурному ЦМУ ССОП с просьбой добавить очередной vlan с новым аплинком. Или удалить уже не нужный.

Больше внимания к себе эта штука не привлекает.

Иногда приходят уведомления об обновлении программного обеспечения и работах на комплексе. Но пока ни разу не было, чтобы в результате таких работ что-то сбойнуло или развалилось. Обычно проходит незаметно.

Как фильтрует

Чёрт его знает. И не совсем понятны возможности комплекса.

Основное (вроде бы) – ждёт TCP ACK пакета извне, в ответ сам посылает RST, соединение не устанавливается.

Пару раз видели ситуацию, когда не проходят пакеты больше 272 байт, но достоверно установить не удалось (возможно была другая проблема).

Можно ли снять свои фильтры

Можно ли снять свои фильтры, которые у оператора были ещё с времён установки Ревизоров и можно ли, наконец-то, снять Ревизоры?

Нет, нельзя.

Несмотря на установку комплекса, вы всё равно должны самостоятельно фильтровать трафик. Эту обязанность каждого оператора связи никто не отменял. А централизованное управление фильтрацией “возможно только после внедрения ТСПУ везде и запуска всей системы целиком. А это ещё не скоро – пару лет точно”.

То есть, это ещё не конечная точка наших приключений – всё впереди.

Призмы байпаса

В составе комплекса предусмотрен оптический байпас. Смысл – в случае сбоя питания на комплексе, оптические призмы физически разворачиваются таким образом, чтобы замкнуть напрямую вход и выход оптического волокна. То есть исключить влияние сбоя оборудования / питания на работу оптических линков.

Сама идея – хорошая.

Допустим, у вас физически два узла связи – параллельных, для резервирования. Если узлы соединены достаточным количеством волокон, то оба узла можно включить через один комплекс ТСПУ, сделав “петлю” оптическими волокнами. Да, с точки зрения оптических кабелей надёжность ниже, но с точки зрения питания – как раз выше.

В этом случае, полный сбой по питанию одного узла (допустим, одной стойки), не приведёт к полному отказу связи – всё будет работать через вторую стойку.

А вот сбой питания на одном комплексе ТСПУ без оптического байпаса “убил” бы связь полностью.

Так вот, заявляется, что:

разворот оптических призм происходит за 3 миллисекунды, что гарантирует переключение на байпас без разрыва связи

Звучит красиво, но есть особенности.

Особенности

  1. Даже 3 мсек разрыв оптической линии связи детектируется оптическим трансивером. Канал падает. Очень кратковременно, но падает.
  2. Протоколы маршрутизации, видя падение интерфейса, тут же кладут сессии / разрывают отношения соседства. Даже без BFD-протокола – просто по факту мигания интерфейса.
  3. После любого падения линии комплекс переходит в режим байпаса для этой линии, возврат осуществляется дежурным вручную. Вы этого не видите, мониторить не имеете возможности. При возврате также возможна ситуация падения интерфейса.

Как защищаться

  1. По возможности, ставить комплекс в разрыв между двумя коммутаторами (НЕ подключать к маршрутизатору).
  2. НЕ ставить комплекс на физические линии связи к аплинкам (придется все линии переводить строго на 2 волокна и не будете иметь возможность контролировать падение аплинка).
  3. Строить LACP через комплекс (да, он умеет LACP + Trunk) – чтобы иметь возможность переключать интерфейсы по одному.
  4. Просить доп. инструкцию по настройке физических интерфейсов у инженеров комплекса. У них точно есть.

Рекомендации ГРЧЦ:

Данная ситуация происходит по следующим причинам:
– таймеры подавления, установленные на интерфейсах оборудования у оператора связи, не блокируют (не подавляют) потерю соединения на время до 50мс;
– при типовой настройке «hold-time up 1000 down 0» на оборудовании оператора будет зарегистрирована потеря сигнала на интерфейсе оборудования и
отключение интерфейса на 1 секунду, что влечет засобой потерю связности, определяемую
протоколом BFD (двунаправленный протокол
обнаружения переадресации), и как следствие – потерю соседства у OSFP, IS-IS, BGP и т.Д.

Рекомендации
В целях избежания указанных проблем рекомендуются следующие настройки в сети оператора связи, на интерфейсах оборудования в сторону ТСПУ:
«hold-time down» – не менее 50 мс.
«hold-time up» – минимальный (например, 0), чтобы BFD не успевал определить падение интерфейса и сохранялась стабильность в сети оператора связи.

Разворот призмы происходит не только при отключении питания на байпасе, но и просто при падении конкретного оптического линка, проходящего через комплекс.

Ложно-положительные

Регулярно. Вдруг перестаёт работать какой-то сервис: подключение происходит, но при согласовании SSL просто тайм-аут и всё. Перестаёт работать сайт, потому что живёт на CloudFlare, а она в списках. Перестаёт работать трансфер зон DNS потому что кому-то показалось, что второй DNS тоже в списках.

Как правило, проблемы единичные, но найти и диагностировать – предельно сложно. Никаких предупреждений о начале фильтрации нет.

Причем, как оказалось, правила вообще не одинаковые на разных ТСПУ-комплексах. У одного оператора может фильтроваться, у другого нет. Регулярно пишем, что-то типа “через Билайн доступно, через Мегафон – нет”. Ну, или наоборот.

Плюс надо понимать, что фильтрация происходит НЕ ТОЛЬКО по спискам РКН. Есть ещё отдельные ведомства и службы, которые запросто могут внести свои блокировки, и эти блокировки нигде не будут опубликованы.

Кто вносит в списки фильтрации

На сайте Роскомнадзора можно проверить внесен ли IP-адрес или домен в списки фильтрации.

Но – сюрприииииз! – там не всё.

Например, есть ещё НКЦКИ (Национальный Координационный Центр по Компьютерным Инцидентам), который может заблокировать ресурс, потому что тот, типа, содержит уязвимость. Говорят, что они сами уведомляют владельцев ресурсов о предстоящих блокировках. Но по каким контактным данным – пока не знаю.

Да и сам ЦМУ ССОП может по каким-то своим причинам ввести блокировку ресурса.

Позднее напишу отдельную статью на тему “Какие ведомства могут блокировать интернет-ресурсы в РФ”

Обход комплекса

Не рекомендую – расстреляют. Даже за бруствер не отведут.

Хотя, надо отметить, что пару раз приходили просьбы от ЦМУ ССОП о том, чтобы пустить либо один адрес, либо сеть оператора мимо комплекса. Но мы тут просто вынуждены были отказаться, потому что само техническое решение не подразумевает такой возможности.

В нашем случае комплекс стоит таким образом, что вообще весь трафик проходит фильтрацию – включая трафик присоединенных операторов. Это и хорошо и плохо.

Хорошо – присоединённым операторам не надо морочиться со своим комплексом. Мы подаём их в отчётности и на том вопрос решен.

Плохо – такие операторы находятся в зависимости от нас и не имеют собственной возможности переключить комплекс на байпас.

Был случай, когда существенно пострадала сеть присоединённого оператора – в момент включения фильтрации VPN. А у клиента пол-бизнеса на VPN построено. Быстрого решения не существовало, приходилось ругаться с РКН.

Взаимодействие с ЦМУ ССОП

По электронной почте – несколько часов / 2-3 дня – запросто. В случае срочной необходимости лучше звонить (телефон они дают).

Первая линия – сам NOC ЦМУ. Но чаще всего эта линия перенаправляет запрос дальше, на организацию, которая выполняла установку и настройку комплекса (ДЦОА – О «Данные – центр обработки и автоматизации»).

Если требуется какое-то согласование, например, исключение в фильтрации – ну тут труба, ибо несколько дней. Готовьтесь.

Приключения

Чем дальше – тем больше.

Добавляются новые заблокированные ресурсы. Внедряются блокировки протоколов (например OpenVPN, WireGuard). И теоретически, вы должны уже быть к ним готовы в момент публикации таких запретов.

Дьявол, как всегда, в деталях. То вдруг оказывается, что банкоматы тоже по VPN работают. То заденет случайно какой-то сайт. То CloudFlare перестанет частично открывать кэшированные сайты.

Каждый раз это 2-3 часа поисков проблемы.

Регулярность – раз в 2 недели точно, бывает 3-4 дня подряд сыпятся такие приключения. Трудозатраты сами посчитаете.

Мало того, надо ж ещё найти причину и показать её клиенту. А вот когда заблокированного ресурса нет в списках РКН, тогда клиент однозначно считает, что провайдер виноват. И фик чего докажешь.

Отчётность

По работе комплекса – нет. Это они сами.

Ежегодно – опросник по обновлению комплекса. Какой план по росту производительности, какой план включения и каких операторов. Для небольших коммерческих операторов – то ещё приключение! А вдруг кого-то мощного включишь за хорошие деньги? И чего делать если канальной мощности не хватает? Ответа нет. Срочно расширяться не пробовали.

Периодически отчёты “какие присоединённые операторы включены через комплекс?”. И, разумеется, в режиме “очень срочно, несмотря на пятницу, надо сегодня к 18 часам!”. Лучше просто держать постоянно актуальные предзаполненные отчёты на эту тему.

Итого

Итого: жить как-то можно. Наверное, даже лучше с ним, чем со своими фильтрами и Ревизорами – можно сказать “ничего не знаю, у нас ТСПУ стоит на всей сети, сами там фильтруйте”.

Про “не требует затрат оператора” – враньё. Как минимум, пол-стойки оборудования на узле связи, плюс стоимость волокон (если разнесённые узлы).

Но самое обидное – оттягивает время инженеров NOC на поиск проблем.

Причем учтите, что проблема может быть не только на вашем комплексе, но и у каких-то других операторов. И дежурного надо отдельно просить, чтобы проверил на других ТСПУ.

А результат – ну вот вообще не уверен. И где взять статистику тоже не знаю. По моим наблюдениям, всем кому нужен был доступ к каким-то сайтам – у всех остался.

Резюме до сих пор публикуют на LinkedIn. Вакансии регулярно прилетают с Facebook (сайт запрещённой экстремистской организации Мета). Рилсы смотрят в Instagram.

Share
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x