Аварийные ситуации — различия между версиями

Материал из ООО Ай Ти Сервис
Перейти к: навигация, поиск
Строка 1: Строка 1:
'''Аварийная ситуация''' - это ситуация связанная с неисправностью части инфраструктуры организации или риском возникновения такой неисправности, которая влечет за собой прерывание предоставления услуг большим группам абонентам компании.  
+
'''Аварийная ситуация''' - это ситуация связанная с неисправностью части инфраструктуры [https://ru.wikipedia.org/wiki/Инфраструктура] организации или риском возникновения такой неисправности, которая влечет за собой прерывание предоставления услуг большим группам абонентам компании.  
Аварийные ситуации связаны с неисправностью какой либо части сети и различаются по характеру неисправности и "ценности" узла или сегмента сети.   
+
Аварийные ситуации связаны с неисправностью какой либо части сети и различаются по характеру неисправности и "ценности" узла или сегмента сети [https://ru.wikipedia.org/wiki/Электросвязь].   
  
  
Строка 6: Строка 6:
 
    
 
    
  
Это может быть авария на оборудовании электросетей или работы внутри здания, узнать информацию как правило можно от администрации, либо подключенных клиентов по этому адресу.  
+
Это может быть авария на оборудовании электросетей или работы внутри здания, узнать информацию как правило можно от администрации [https://billing.it-s.club/cgi-bin/proj/client/building_adm.pl?Command=ViewTable], либо подключенных клиентов по этому адресу.    
  
+
Сообщение в Zabbix [https://ru.wikipedia.org/wiki/Zabbix]:   
 
+
Сообщение в Zabbix:   
+
  
 
[[Файл:NoPowerOlt.png]]
 
[[Файл:NoPowerOlt.png]]
  
+
 
 
+
+
  
 
Обработка:   
 
Обработка:   
Строка 24: Строка 20:
 
Определение "ценности" узла   
 
Определение "ценности" узла   
  
Расчет времени работы узла от АКБ   
+
Расчет времени работы узла от АКБ [https://voltra.by/help/ups/]  
  
Планирование выезда дежурного с ДГУ или сменной АКБ
+
Планирование выезда дежурного с ДГУ [https://ru.wikipedia.org/wiki/Дизельная_электростанция] или сменной АКБ [https://ru.wikipedia.org/wiki/Электрический_аккумулятор]
  
 
Оповещение отделов через чаты   
 
Оповещение отделов через чаты   
  
Постановка задачи дежурному энергетику и передача информации по доступу на узел   
+
Постановка задачи дежурному энергетику и передача информации по доступу на узел [https://billing.it-s.club/cgi-bin/proj/various/hardware_nodes.pl?Command=ViewTable]  
  
 
   
 
   
 
 
 
 
   
 
   
  
Строка 46: Строка 39:
 
   
 
   
  
 
  
 
   
 
   
Строка 54: Строка 46:
 
    
 
    
  
Обрыв наиболее частая причина внезапного падения по ping olt . Однако обрывы происходят на всех типах оборудования.   
+
Обрыв наиболее частая причина внезапного падения по ping [https://ru.wikipedia.org/wiki/Ping] olt [https://en.wikipedia.org/wiki/Optical_line_termination?ysclid=mal59lk8642079525] . Однако обрывы происходят на всех типах оборудования.   
 
+
 
   
 
   
  
Строка 73: Строка 64:
 
Оповещение отделов через чаты   
 
Оповещение отделов через чаты   
  
Выяснение дополнительной информации у администрации задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )  
+
Выяснение дополнительной информации у администрации [https://billing.it-s.club/cgi-bin/proj/client/building_adm.pl?Command=ViewTable] задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )  
  
Если упал olt, golt, 10g коммутатор: постановка задачи дежурному инженеру на поиск обрыва линии , передача информации по доступу на узел   
+
Если упал olt [https://en.wikipedia.org/wiki/Optical_line_termination?ysclid=mal59lk8642079525], golt, 10g коммутатор [https://www.fibermall.com/ru/blog/aggregation-switch.htm]: постановка задачи дежурному инженеру на поиск обрыва линии , передача информации по доступу на узел   
  
Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел
+
Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел [https://billing.it-s.club/cgi-bin/proj/various/hardware_nodes.pl?Command=ViewTable]
 
+
+
  
 
   
 
   
Строка 92: Строка 81:
  
 
   
 
   
 
 
   
 
   
  
 
   
 
   
  
 
  
 
+
==  Обрыв линии PON [https://ru.wikipedia.org/wiki/PON] распределения ==
==  Обрыв линии PON распределения ==
+
 
   
 
   
  
Сообщение в Zabbix:   
+
Сообщение в Zabbix [https://ru.wikipedia.org/wiki/Zabbix]:   
 
    
 
    
 
[[Файл:RaspredDown.png]]
 
[[Файл:RaspredDown.png]]
Строка 130: Строка 116:
 
Неисправность узлового оборудования  
 
Неисправность узлового оборудования  
  
Такая ситуация бывает не часто, но периодически возникает. Из строя выходят sfp модули, оптические патчкорды, конвертора или их блоки питания, блоки питания станций и наконец сами коммутаторы и станции.  
+
Такая ситуация бывает не часто, но периодически возникает. Из строя выходят sfp модули [https://ru.wikipedia.org/wiki/SFP], оптические патчкорды [https://rootstore.ru/news/opticheskie-patch-kordy-chto-eto-takoe-i-zachem-nuzhno/], конвертора [https://community.fs.com/ru/article/fiber-media-converter-what-is-it-and-how-it-works.html] или их блоки питания, блоки питания станций и наконец сами коммутаторы [https://ru.wikipedia.org/wiki/Сетевой_коммутатор] и станции.  
  
 
   
 
   
Строка 140: Строка 126:
 
Обработка:   
 
Обработка:   
  
Нужно понимать что часто такая ситуация не отличима от обрыва, т.к. узел просто пропадает по ping и если упала olt, golt или 10g коммутатор отреагировать нужно быстро - должна быть полномасштабная реакция покрывающая и возможность обрыва и возможность проверки оборудования. Однако нужно иметь ввиду что неисправность оборудования может иметь несколько другие признаки - например линк есть, а станция не пингуется, или пинг есть, а станция не работает и абоненты со станции не работают.   
+
Нужно понимать что часто такая ситуация не отличима от обрыва, т.к. узел просто пропадает по ping [https://ru.wikipedia.org/wiki/Ping]  и если упала olt [https://en.wikipedia.org/wiki/Optical_line_termination?ysclid=mal68v911b335631332], golt или 10g коммутатор отреагировать нужно быстро - должна быть полномасштабная реакция покрывающая и возможность обрыва и возможность проверки оборудования. Однако нужно иметь ввиду что неисправность оборудования может иметь несколько другие признаки - например линк есть, а станция не пингуется, или пинг есть, а станция не работает и абоненты со станции не работают.   
  
 
   
 
   

Версия 17:32, 12 мая 2025

Аварийная ситуация - это ситуация связанная с неисправностью части инфраструктуры [1] организации или риском возникновения такой неисправности, которая влечет за собой прерывание предоставления услуг большим группам абонентам компании. Аварийные ситуации связаны с неисправностью какой либо части сети и различаются по характеру неисправности и "ценности" узла или сегмента сети [2].


Отсутствие электропитания

Это может быть авария на оборудовании электросетей или работы внутри здания, узнать информацию как правило можно от администрации [3], либо подключенных клиентов по этому адресу.

Сообщение в Zabbix [4]:

NoPowerOlt.png


Обработка:

Выяснение причины и сроков отключения.

Определение "ценности" узла

Расчет времени работы узла от АКБ [5]

Планирование выезда дежурного с ДГУ [6] или сменной АКБ [7]

Оповещение отделов через чаты

Постановка задачи дежурному энергетику и передача информации по доступу на узел [8]



Ответственные:

Координатор

Дежурный энергетик




Обрыв линии к узлу

Обрыв наиболее частая причина внезапного падения по ping [9] olt [10] . Однако обрывы происходят на всех типах оборудования.


Сообщение в Zabbix:

UnawailableByPing.png

NoLink-sw.png



Обработка:

Определение "ценности" узла

Оповещение отделов через чаты

Выяснение дополнительной информации у администрации [11] задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )

Если упал olt [12], golt, 10g коммутатор [13]: постановка задачи дежурному инженеру на поиск обрыва линии , передача информации по доступу на узел

Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел [14]


Ответственные:

Координатор

Дежурный инженер

Дежурный техник




Обрыв линии PON [15] распределения

Сообщение в Zabbix [16]:

RaspredDown.png


Обработка:

Оповещение отделов через чаты ( Передача списка отключившихся абонентов в чат ВОЛСовики монтажникам и менеджеру )

Выяснение дополнительной информации у абонентов ( возможно одновременно пострадало электропитание или связь от других провайдеров, возможно кто то видел обрыв или знает виновника обрыва )

Постановка задачи дежурному инженеру на поиск обрыва линии, передача информации


Ответственные:

Координатор

Дежурный менеджер по монтажникам

Монтажная бригада


Неисправность узлового оборудования

Такая ситуация бывает не часто, но периодически возникает. Из строя выходят sfp модули [17], оптические патчкорды [18], конвертора [19] или их блоки питания, блоки питания станций и наконец сами коммутаторы [20] и станции.


Сообщения в Zabbix:

UnawailableByPing.png

Обработка:

Нужно понимать что часто такая ситуация не отличима от обрыва, т.к. узел просто пропадает по ping [21] и если упала olt [22], golt или 10g коммутатор отреагировать нужно быстро - должна быть полномасштабная реакция покрывающая и возможность обрыва и возможность проверки оборудования. Однако нужно иметь ввиду что неисправность оборудования может иметь несколько другие признаки - например линк есть, а станция не пингуется, или пинг есть, а станция не работает и абоненты со станции не работают.


Определение "ценности" узла

Оповещение отделов через чаты

Выяснение дополнительной информации у администрации задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )

Если линка нет и если упала olt, golt или 10g коммутатор: постановка задачи дежурному инженеру на поиск обрыва линии, передача информации по доступу на узел

Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел



Ответственные:

Координатор

Дежурный инженер

Дежурный техник




Проблема в оборудовании вышестоящего узла

Аналогично с неисправностью оборудования может быть неисправность на вышестоящем узле. Из строя выходят sfp модули, оптические патчкорды, конвертора или их блоки питания, блоки питания станций и наконец сами коммутаторы и станции.


Сообщения в Zabbix:

UnawailableByPing.png

Обработка:

Аналогично признаки чаще всего как при обрыве. Отправляем инженера если проблема на olt или 10g коммутаторе, и техника если проблема на обычном sw коммутаторе. Начальные действия аналогичны.


Определение "ценности" узла

Оповещение отделов через чаты

Выяснение дополнительной информации у администрации задний ( возможно одновременно пострадало электропитание или связь от других провайдеров )

Если линка нет и если упала olt, golt или 10g коммутатор: постановка задачи дежурному инженеру на поиск обрыва линии, передача информации по доступу на узел

Если есть признаки неисправности оборудования или упал обычный sw: постановка задачи дежурному технику по выезду для проверки оборудования, передача информации по доступу на узел


Ответственные:

Координатор

Дежурный инженер

Дежурный техник





Объекты неисправности и их "ценность":

Наивысшую ценность для работы сети имеют сервера и маршрутизаторы нашей сети:

pppoe-srv-00

pppoe-srv-01

pppoe-srv-02

pppoe-srv-03

pppoe-srv-04

pppoe-srv-05

bgw0

bgw1

sbc

bold-18-gw

core-gw-1-nx-c3164q

core-gw-2-nx-c3164q

ln-108-gw

nwmsk-46-gw

radio-gw

scheglovka-31-gw

srv-core-gw-stack-huawei


При падении такого узла нужно сразу ставить в известность СПД. Эти узлы размещены в наших основных узлах: проспект Ленина 108, Болдина 18.



Следующие по важности 10g коммутаторы агрегации:


ln-108-gw

sw-bold-18-10g

sw-lozh-125-10g

sw-nwmsk-46-10g

sw-wolkswagen-10g


От таких коммутаторов у нас подключены olt станции в связи с чем падение такого узла всегда означает падение большого количества абонентов. При падении таких узлов по ping нужно срочное оповещение инженеров, т.к. чаще всего это обрыв магистрали. Эти узлы оснащены АКБ на случай отключения питания.




Далее идут olt и golt станции, их список часто пополняется актуальные данные можно получить через поиск в Zabbix:


golt-inshinski-21a

golt-pirogova-43

golt-pirogova-43-2

golt-schekino-sovet-2

olt-1-pshenichnaya-7

olt-basovoprudniy

olt-chmutovo

olt-chmutovo-2

olt-ekobushovo

olt-ekobushovo-2

olt-ekobushovo-3

olt-elovaya

olt-gorsovet

olt-homyakovo

olt-karpova

olt-karpova-2

olt-karpova-3

olt-kutuz-100

olt-kutuz-100-2

olt-lihvinka

olt-lihvinka-2

olt-liteynaya-9

olt-ln-108

olt-ln-108-new

olt-lozh-125a

olt-moskwsk-1L

olt-moskwsk-1L-2

olt-new-city

olt-new-oktyabr-2

olt-new-oktyabr-3

olt-new-oktyabr-new

olt-nwmsk-46-2

olt-oktybrskaya-221-1

olt-rogozh-18

olt-rublevo-medvenskoe

olt-rublevo-medvenskoe-2

olt-schekino

olt-schekino-stanc

olt-sheglovka-31

olt-skur-100

olt-stanislav

olt-strekalovka

olt-strekalovka-2

olt-tropik-inshin

olt-tulbumprom

olt-volodarskogo-24-2


От olt станций подключены непосредственно абоненты, количество абонентов в среднем на одной станции варьируется от 300 до 1024, а в узлах бывает по 3 станции. Реакция при падении станции так же должна быть мгновенной. Эти узлы оснащены АКБ на случай отключения питания.



Далее идут обрывы РШ и РК - это ситуация когда оборвана оптика пассивного распределения и отключилась часть абонентов подключенных от olt или golt. Такой обрыв обычно затрагивает от 2 до 128 клиентов. При таких обрывах одновременно отключается группа ону с причиной wire-down.

Для таких событий предусмотрены свои сообщения в Zabbix.

RaspredDown.png 




Далее идут немногочисленные коммутаторы агрегации ( от которых подключена цепочка узлов ):


sw-tropic

sw-bold-94

sw-bold-45

sw-oktyabr-1

sw-saturn


От этих узлов подключены другие здания с коммутаторами доступа, эти узлы оснащены АКБ на случай отключения питания. Через sw у нас подключены юр. лица по этому не смотря на небольшое количество абонентов на некоторых узлах реагировать нужно сразу.



И в конце коммутаторы доступа sw. Перечислять их тут нет никакого смысла: их много и их список так же часто меняется. Чаще всего установлен один коммутатор на одно здание, по этому АКБ в таких узлах не стоит, при отключения питания в здании интернет просто ни кому там не нужен.


Актуальную информацию по sw и olt можно найти в https://billing.it-s.club/ Сеть -> Узлы.

BillingNodes.png




Методы сбора информации в базе

По аварийным ситуациям требуется сбор информации для передачи ответственным и эта информация может быть найдена в базе, в Zabbix, либо на оборудовании.


Сбор информации о недоступных узлах:

Первая информация приходит к нам в Zabbix или Zabbix telegramm bot. Тут мы видим название узла и характер неисправности. UnawailableByPing.png


Для получения информации от людей на адресе нужно зайти в https://billing.it-s.club/ Сеть -> Узлы. и найти номера администрации здания или клиентов на месте: NodesGetContact.png


Позвонив по контактам выясняем не проводятся ли работы на адресе, до скольки отключение электропитания и т.п. информацию. Если по узлу требуется согласовывать доступ, то сразу предупреждаем клиента о том что нам может потребоваться доступ для устранения неисправности. Тут же берем информацию об АКБ и её состоянии.

Если контактов тут не оказалось, либо все номера не актуальны, то номера администрации можно найти зайдя в таблицу номеров администрации зданий. Заходим в любого клиента и с лева находим ссылку: "Администрация задний".

BuildingAdministration.png


В случае если мы имеем дело с неисправностью оборудования или подозреваем его, то имеет смысл зайти ( тут будет ссылка на работу с CLI коммутаторов ) на вышестоящий коммутатор и посмотреть логи и если есть линк - то сигналы.




Сбор информации при обрыве РШ или РК:

Пример: zabbix сигнализирует:

АЛЯРМ БЛЕАТЬ!!! НЕМЦЫ НАПАЛИ НА olt-new-oktyabr-new

В: 19:11:11 2025.01.06

['ШР-01', 'пос. Ново-Октябрьский (Скуратово)', '71', 'Р-06 (строилось 6)'], onu: , 8/31, 8/31, 8/32, 8/33, 8/34, 8/35, 8/36, 8/37, 8/38, 8/39, 8/40, 8/41, 8/42, 8/43, 8/46, 8/52, 8/54


Где:

olt-new-oktyabr-new - станция, на которой произошел обрыв.

'пос. Ново-Октябрьский (Скуратово) - название геозоны.

'ШР-01 - Шкаф. На одном шкафу может быть

Р-06 - Распределение. На одном распределение может быть до 16 клиентов.

onu: количество упавших клиентов и кто именно.


При такой ситуации заходим в PuTTY на станцию где случился обрыв. В данном случае olt-new-oktyabr-new.

Вводим команду show epon inactive-onu и смотрим на предпоследний столбик (LastDeregReason). Это причина последнего отключения. При обрыве у большинства клиентов будет wire-down.

Также смотрим на последний столбик (Abserttime) это время отключения. При обрыве оно у всех одинаково.

Olt-inactive-onu.png


Далее нужно открыть в базе вкладку Свободные порты

BillingFreePorts.png


Там можно узнать какие именно клиенты находятся на распределении для того, чтобы сравнивать значения со станцией. Тут нам из забикса нужно взять геозону. В примере 'пос. Ново-Октябрьский (Скуратово)

GeoZoneSelect.png


Выбираем в списке нужную геозону и нажимаем применить.

GeozoneSelectRaspred.png


Обращаем внимание на шкаф. В данном случае шкаф один. Смотрим распределение. В примере Р-06. Выбираем его и нажимаем на "Активный" (кликабельные цифры (гиперссылка)).

UsersList.png


Нам открывается все распределение: порт, адрес, ФИО.


Полученную информацию передаем монтажникам в чат, предварительно отметив неисправных абонентов.




Аварийный режим телефонии :

При возникновении аварии затрагивающей большое количество абонентов, при большом потоке звонков нужно пользоваться аварийной заглушкой. Для того чтобы её установить нужно зайти в https://billing.it-s.club/ Сеть -> Узлы.


В столбце "Оповещение об аварии" нажимаем на "выкл." И переводим во "вкл".

EmergensyNotificator.png


Так же активировать аварийное оповещение можно из карточки услуги интернет, кликнув на название сети:

Emergency notificationOnOff.png


После активации всех абонентов с того узла для которого активировано аварийное оповещение робот будет оповещать об аварии.

После восстановления связи нужно обязательно вернуть исходное состояние "выкл".




Заголовок таблицы (название)
Заголовок столбца 1 Заголовок столбца 2
Заголовок строки 1 Содержимое ячейки 1-1 Содержимое ячейки 1-2
Заголовок строки 2 Содержимое ячейки 2-1 Содержимое ячейки 2-2