Аварийные ситуации

Материал из ООО Ай Ти Сервис
Версия от 15:18, 12 мая 2025; VoltDeMar (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Аварийные ситуации связаны с неисправностью какой либо части сети и различаются по характеру неисправности и "ценности" узла или сегмента сети.




Какие неисправности бывают: ==

Отсутствие электропитания

Это может быть авария на оборудовании электросетей или работы внутри здания, узнать информацию как правило можно от администрации, либо подключенных клиентов по этому адресу.


Сообщение в Zabbix:




 Обработка:   

Выяснение причины и сроков отключения.

Определение "ценности" узла

Расчет времени работы узла от АКБ

Планирование выезда дежурного с ДГУ или сменной АКБ

Оповещение отделов через чаты

Постановка задачи дежурному энергетику и передача информации по доступу на узел




Ответственные:

Координатор

Дежурный энергетик




2.1 Обрыв линии к узлу

          Обрыв наиболее частая причина внезапного падения по ping olt . Однако обрывы происходят на всех типах оборудования.  


Сообщение в Zabbix:







Обработка:  

Определение "ценности" узла

Оповещение отделов через чаты

Выяснение дополнительной информации у администрации задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )

Если упал olt, golt, 10g коммутатор: постановка задачи дежурному инженеру на поиск обрыва линии , передача информации по доступу на узел

Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел



Ответственные:

Координатор

Дежурный инженер

Дежурный техник





2.2 Обрыв линии PON распределения



Сообщение в Zabbix:




Обработка:  

Оповещение отделов через чаты ( Передача списка отключившихся абонентов в чат ВОЛСовики монтажникам и менеджеру )

Выяснение дополнительной информации у абонентов ( возможно одновременно пострадало электропитание или связь от других провайдеров, возможно кто то видел обрыв или знает виновника обрыва )

Постановка задачи дежурному инженеру на поиск обрыва линии, передача информации


Ответственные:

Координатор

Дежурный менеджер по монтажникам

Монтажная бригада






Неисправность узлового оборудования

Такая ситуация бывает не часто, но периодически возникает. Из строя выходят sfp модули, оптические патчкорды, конвертора или их блоки питания, блоки питания станций и наконец сами коммутаторы и станции.



Сообщения в Zabbix:








Обработка:  

Нужно понимать что часто такая ситуация не отличима от обрыва, т.к. узел просто пропадает по ping и если упала olt, golt или 10g коммутатор отреагировать нужно быстро - должна быть полномасштабная реакция покрывающая и возможность обрыва и возможность проверки оборудования. Однако нужно иметь ввиду что неисправность оборудования может иметь несколько другие признаки - например линк есть, а станция не пингуется, или пинг есть, а станция не работает и абоненты со станции не работают.


Определение "ценности" узла

Оповещение отделов через чаты

Выяснение дополнительной информации у администрации задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )

Если линка нет и если упала olt, golt или 10g коммутатор: постановка задачи дежурному инженеру на поиск обрыва линии, передача информации по доступу на узел

Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел




Ответственные:

Координатор

Дежурный инженер

Дежурный техник





Проблема в оборудовании вышестоящего узла

Аналогично с неисправностью оборудования может быть неисправность на вышестоящем узле. Из строя выходят sfp модули, оптические патчкорды, конвертора или их блоки питания, блоки питания станций и наконец сами коммутаторы и станции.


Сообщения в Zabbix:





Обработка:  

Аналогично признаки чаще всего как при обрыве. Отправляем инженера если проблема на olt или 10g коммутаторе, и техника если проблема на обычном sw коммутаторе. Начальные действия аналогичны.



Определение "ценности" узла

Оповещение отделов через чаты

Выяснение дополнительной информации у администрации задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )

Если линка нет и если упала olt, golt или 10g коммутатор: постановка задачи дежурному инженеру на поиск обрыва линии, передача информации по доступу на узел

Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел





Ответственные:

Координатор

Дежурный инженер

Дежурный техник








========== Объекты неисправности и их "ценность": ====================

Наивысшую ценность для работы сети имеют сервера и маршрутизаторы нашей сети:

pppoe-srv-00

pppoe-srv-01

pppoe-srv-02

pppoe-srv-03

pppoe-srv-04

pppoe-srv-05

bgw0

bgw1

sbc


bold-18-gw

core-gw-1-nx-c3164q

core-gw-2-nx-c3164q

ln-108-gw

nwmsk-46-gw

radio-gw

scheglovka-31-gw

srv-core-gw-stack-huawei



При падении такого узла нужно сразу ставить в известность СПД. Эти узлы размещены в наших основных узлах: проспект Ленина 108, Болдина 18.



Следующие по важности 10g коммутаторы агрегации:


ln-108-gw

sw-bold-18-10g

sw-lozh-125-10g

sw-nwmsk-46-10g

sw-wolkswagen-10g


От таких коммутаторов у нас подключены olt станции в связи с чем падение такого узла всегда означает падение большого количества абонентов. При падении таких узлов по ping нужно срочное оповещение инженеров, т.к. чаще всего это обрыв магистрали. Эти узлы оснащены АКБ на случай отключения питания.






Далее идут olt и golt станции, их список часто пополняется актуальные данные можно получить через поиск в Zabbix:


golt-inshinski-21a

golt-pirogova-43

golt-pirogova-43-2

golt-schekino-sovet-2

olt-1-pshenichnaya-7

olt-basovoprudniy

olt-chmutovo

olt-chmutovo-2

olt-ekobushovo

olt-ekobushovo-2

olt-ekobushovo-3

olt-elovaya


olt-gorsovet

olt-homyakovo

olt-karpova

olt-karpova-2

olt-karpova-3

olt-kutuz-100

olt-kutuz-100-2

olt-lihvinka

olt-lihvinka-2

olt-liteynaya-9

olt-ln-108


olt-ln-108-new

olt-lozh-125a

olt-moskwsk-1L

olt-moskwsk-1L-2

olt-new-city

olt-new-oktyabr-2

olt-new-oktyabr-3

olt-new-oktyabr-new

olt-nwmsk-46-2

olt-oktybrskaya-221-1

olt-rogozh-18

olt-rublevo-medvenskoe

olt-rublevo-medvenskoe-2


olt-schekino

olt-schekino-stanc

olt-sheglovka-31

olt-skur-100

olt-stanislav

olt-strekalovka

olt-strekalovka-2

olt-tropik-inshin

olt-tulbumprom

olt-volodarskogo-24-2



От olt станций подключены непосредственно абоненты, количество абонентов в среднем на одной станции варьируется от 300 до 1024, а в узлах бывает по 3 станции. Реакция при падении станции так же должна быть мгновенной. Эти узлы оснащены АКБ на случай отключения питания.




Далее идут обрывы РШ и РК - это ситуация когда оборвана оптика пассивного распределения и отключилась часть абонентов подключенных от olt или golt. Такой обрыв обычно затрагивает от 2 до 128 клиентов. При таких обрывах одновременно отключается группа ону с причиной wire-down.

Для таких событий предусмотрены свои сообщения в Zabbix.




Далее идут немногочисленные коммутаторы агрегации ( от которых подключена цепочка узлов ):


sw-tropic

sw-bold-94

sw-bold-45

sw-oktyabr-1

sw-saturn


От этих узлов подключены другие здания с коммутаторами доступа, эти узлы оснащены АКБ на случай отключения питания. Через sw у нас подключены юр. лица по этому не смотря на небольшое количество абонентов на некоторых узлах реагировать нужно сразу.




И в конце коммутаторы доступа sw. Перечислять их тут нет никакого смысла: их много и их список так же часто меняется. Чаще всего установлен один коммутатор на одно здание, по этому АКБ в таких узлах не стоит, при отключения питания в здании интернет просто ни кому там не нужен.


    Актуальную информацию по sw и olt можно найти в https://billing.it-s.club/  Сеть -> Узлы.  












============   Методы сбора информации в базе  ================ 


По аварийным ситуациям требуется сбор информации для передачи ответственным и эта информация может быть найдена в базе, в Zabbix, либо на оборудовании.


Сбор информации о недоступных узлах:

Первая информация приходит к нам в Zabbix или Zabbix telegramm bot. Тут мы видим название узла и характер неисправности.





Для получения информации от людей на адресе нужно зайти в https://billing.it-s.club/ Сеть -> Узлы. и найти номера администрации здания или клиентов на месте:



Позвонив по контактам выясняем не проводятся ли работы на адресе, до скольки отключение электропитания и т.п. информацию. Если по узлу требуется согласовывать доступ, то сразу предупреждаем клиента о том что нам может потребоваться доступ для устранения неисправности. Тут же берем информацию об АКБ и её состоянии.

Если контактов тут не оказалось, либо все номера не актуальны, то номера администрации можно найти зайдя в таблицу номеров администрации зданий. Заходим в любого клиента и с лева находим ссылку: "Администрация задний".




В случае если мы имеем дело с неисправностью оборудования или подозреваем его, то имеет смысл зайти ( тут будет ссылка на работу с CLI коммутаторов ) на вышестоящий коммутатор и посмотреть логи и если есть линк - то сигналы.





====== Сбор информации при обрыве РШ или РК: =============

Пример: zabbix сигнализирует:

АЛЯРМ БЛЕАТЬ!!! НЕМЦЫ НАПАЛИ НА olt-new-oktyabr-new

В: 19:11:11 2025.01.06

['ШР-01', 'пос. Ново-Октябрьский (Скуратово)', '71', 'Р-06 (строилось 6)'], onu: , 8/31, 8/31, 8/32, 8/33, 8/34, 8/35, 8/36, 8/37, 8/38, 8/39, 8/40, 8/41, 8/42, 8/43, 8/46, 8/52, 8/54


Где:

olt-new-oktyabr-new - станция, на которой произошел обрыв.

'пос. Ново-Октябрьский (Скуратово) - название геозоны.

'ШР-01 - Шкаф. На одном шкафу может быть

Р-06 - Распределение. На одном распределение может быть до 16 клиентов.

onu: количество упавших клиентов и кто именно.


При такой ситуации заходим в PuTTY на станцию где случился обрыв. В данном случае olt-new-oktyabr-new.

Вводим команду show epon inactive-onu и смотрим на предпоследний столбик (LastDeregReason). Это причина последнего отключения. При обрыве у большинства клиентов будет wire-down.

Также смотрим на последний столбик (Abserttime) это время отключения. При обрыве оно у всех одинаково.



Далее нужно открыть в базе вкадку Свободные порты


Там можно узнать какие именно клиенты находятся на распределении для того, чтобы сравнивать значения со станцией. Тут нам из забикса нужно взять геозону. В примере 'пос. Ново-Октябрьский (Скуратово)




Выбираем в списке нужную геозону и нажимаем применить.



Обращаем внимание на шкаф. В данном случае шкаф один. Смотрим распределение. В примере Р-06. Выбираем его и нажимаем на "Активный" (кликабельные цифры (гиперссылка)).



Нам открывается все распределение: порт, адрес, ФИО.


Полученную информацию передаем монтажникам в чат, предварительно отметив неисправных абонентов.







==== Аварийный режим телефонии : ========

При возникновении аварии затрагивающей большое количество абонентов, при большом потоке звонков нужно пользоваться авариной заглушкой. Для того чтобы её установить нужно зайти в https://billing.it-s.club/ Сеть -> Узлы.


В столбце "Оповещение об аварии" нажимаем на "выкл." И переводим во "вкл".







Так же активировать аварийное оповещение можно из карточки услуги интернет, кликнув на название сети:




После активации всех абонентов с того узла для которого активировано аварийное оповещение робот будет оповещать об аварии.


После восстановления связи нужно обязательно вернуть исходное состояние "выкл".




Заголовок таблицы (название)
Заголовок столбца 1 Заголовок столбца 2
Заголовок строки 1 Содержимое ячейки 1-1 Содержимое ячейки 1-2
Заголовок строки 2 Содержимое ячейки 2-1 Содержимое ячейки 2-2