POSTMORTEM : Intrerupere neprogramata 05.02.2024
AUTOR:
Radu T.
REZUMAT:
In cursul zilei de 05 Februarie, 2024 incepand cu ora 10.33 AM serviciile ROMARG au fost afectate de o intrerupere neprogramata.
IMPACT:
Accesul la internet a serverelor si site-urile gazduite in data centerul nostru a fost blocat.
CAUZA PRINCIPALA:
O intrerupere de tip fibercut care a afectat unul din circuitele de transport intre Brasov si Bucuresti. In ciudata faptului ca avem 2 circuite de 100 Gbps distribuite geografic diferit, iar tehnic nu ar fi trebuit sa fie resimtit nici un impact la nivelul infrastructurii noastre, acest incident a creat o reactie in lant la nivelul infrastucturii de retea (acces si distributie) care a dus la supra incarcarea CPU-urilor de retea, generand astfel o falsa interpretare de atac DDOS. Interpretare ca a determinat echipamentele de protectie sa filtreze tot traficul.
DURATA DE INTRERUPERE:
Restabilirea functionalitatii a fost realizata in pasi pe segmente de retea, incepand cu 11.10 pana la 11.48. Asta inseamna un total de 75 de minute durata incident. Pentru unii clienti remedierea fiind realizata dupa 37 minute, ultimii fiind restabiliti dupa 75 de minute.
LECTII INVATATE
Ce a mers bine:
1. Sistemul de monitorizare a infrastructurii, a functionat impecabil, alertand despre incident in mai putin de 1 minut.
2. Echipa de interventie a furnizorului pentru serviciul de transport afectat a fost dispecerata de urgenta pentru remedierea problemei, rezolvand in timp record problema.
3. Interventia fizica in data center a fost extrem de rapida, fiind prezenti fizic in data center in mai putin de 5 minute.
Ce a mers prost:
1. Masurile de protectie a circuitelor de transport, respectiv limitarea propagarii in reteaua din data center s-au dovedit a fi insuficiente.
2. Raspunsul greoi la acest tip de incident, care a afectat in cascada mai multe echipamente din data center.
UNDE AM AVUT NOROC
1. Am identificat slabiciunile legate de protectia insuficienta a circuitelor de internet (transport sau tranzit).
2. Am identificat dependenta centralei telefonice, respectiv a platformei de suport de infrastructura din data center.
3. Am avut oportunitatea de a experimenta o situatie de forta majora, din care am invatat care este cel mai rapid mod de interventie si remediere.
CE AM FACUT in ultimele 24 ore
1. In primul rand am revizuit toate masurile de protectie a circuitelor de uplink din data center, fie ca vorbim de tranzit internet, transport respectiv de reteaua din data center. Am securizat complet aceste circuitele pentru a evita un incident similar pe viitor.
CE VOM FACE in urmatoarea perioada
1. Plecand de la acest incident vom revizui complet procedura de interventie si escaladare a evenimentelor. Astfel incat sa ne incadram in cele 15 minute de interventie si remediere.
2. Vom realiza teste periodice pentru evaluarea rezilientei infrastructurii, pentru orice tip de incident care a afectat serviciile noastre in ultimele 365 de zile.
3. Vom elimina dependenta centralei telefonice de reteaua din data center.
Ne pare rau pentru neplacerile cauzate si va asiguram ca suntem tot timpul la taste sau in data center atunci cand apar probleme chiar daca in situatii extreme cum a fost si acesta nu reusiti sa ne contactati telefonic, chat sau prin email.