Probleme conectivitate - Downtime
Incident Report for ROMARG
Resolved
Ce s-a intamplat si ce masuri am luat?

Incepand cu data de 24 Februarie 2020, aproximativ orele 17.20, Centrul de date ROMARG a fost afectat de cateva probleme de conectivitate ce au afectat partial sau total accesul la serverele noastre.

Aceste probleme au fost generate de echipamentul care asigura conexiunile de interconectare cu furnizorii nostri de internet, dar si routarea traficului in reteaua ROMARG.

In prima faza, inca de la primul incident am intervenit pentru a lua masurile corective necesare astfel incat sa refacem conectivitatea si de stabiliza legaturile la internet iar fiecare client sa poata accesa din nou resursele gazduite la noi.

In faza a doua, am investigat cauzele acestui incident pentru a lua masurile preventive necesare. In urma investigatiilor a reiesit ca o eroare software la nivelul router-ului a determinat comportamentul atipic. In urma acestei investigatii am decis si care este cea mai buna metoda de solutionare.

Decizia a fost sa inlocuim echipamentul ce prezenta defectiunea. Pentru a ne asigura ca aceasta situatie nu se va repeta, echipamentul defect a fost inlocuit cu alte patru routere ce asigura atat o performanta sporita cat si au rolul de a se suplini atunci cand este unul dintre ele este defect sau este supus unei lucrari de mentenanta.

Pentru a face aceasta inlocuire, aici la ROMARG, am lucrat aproximativ 30 de ore timp in care au fost configurate cele 4 routere, respectiv a fost reconfigurata toata reteaua de CORE si Border a centrului de date.
Rezultatul fiind redundanta completa, dar si o performanta net superioara la nivel de capacitate de interconectare internet si routare trafic.

Capacitatea, initiala, maxim agregata de internet de 60 Gbps cu un nivel de 320 Mpps IP forwarding a fost crescuta in urma acestor lucrari. Acum putem agrega trafic la de peste 150 Gbps trafic internet, respectiv 1152 Mpps IP forwarding.

Lucrarea de mentenanta a fost finalizata in noaptea de 25-26 Februarie in jurul orelor 12.30, trecerea pe noua infrastructura fiind realizata in jurul orelor 01.30 - 01.40 noaptea.

Din pacate, cel mai probabil din pricina efortului depus, dupa finalizarea lucrarii de mentenanta s-a omis reverificarea licentelor aplicate software-ului de routare pe toate routarele. Fara sa ne dam seama, in urma restart-urilor repetate si a schimbarii unor componente hardware, din cele 4 routere doua au ramas nelicentiate desi initial ele au fost validate ca licentiate. Asta a facut sa functioneze timp de 48 de ore fara licenta. Dupa expirarea celor 48 de ore cele 2 routere s-au oprit iar traficul inspre si dinspre retea sa nu mai fie forwardat.

Asta a facut ca azi noapte (noaptea de 27 spre 28 Februarie) in jurul orelor 0.30 data centerul nostru sa fie afectat de un nou downtime. Desi s-a intervenit imediat pentru investigatie si rezolvare, timpul de remediere a fost mai mare decat ne-am fi asteptat. Problema de licentiere a fost ultima la care ne-am gandit, router-ele fiind initial licentiate.

Imediat ce am realizat cauza problemei, am luat masurile necesare pentru revalidarea routerelor. Serverele au fost accesibile din nou incepand cu orele 01.08 iar dupa orele 02.30 toate routerele functionau complet.

Ce facem in continuare?

Vom continua sa consolidam infrastructura de border si core prin extinderea topologiei full mesh astfel incat pana la sfarsitul luni Martie, 2020 sa instalam inca 4 noi routere si sa atingem astfel nivelul de redundanta 2N corespunzator standardului Tier 4. Standard ce reprezinta cel mai inalt nivel de certificare a Centrelor de Data le nivel mondial.

Aceasta consolidare ne va asigura si o dublare a capacitatii de routare la peste 300 Gbps, respectiv 2304 Mpps IP forwarding.

Ce facem cu downtime-ul?

Am masurat pe parcusul lunii Februarie, 13 intreruperi pricinuite de aceste probleme care au determinat o intrerupere de o ora si 10 minute in furnizarea serviciilor. Aceste intreruperi au condus la un uptime de 98.95% in medie la nivelul retelei ROMARG.

In conformitate cu Angajamentul de Calitate (SLA), va invitam sa va adresati depamentului plati, pentru alocarea perioadei de gratuitate. Detalii despre la adresa https://www.romarg.ro/angajament-de-calitate.html

Ne pare rau pentru neplacerile create de aceste probleme, si va asiguram ca depunem toate eforturile pentru a asigura cea mai buna infrastructura de hosting din Romania.

Radu TOFAN
CEO, Owner ROMARG
Posted Feb 28, 2020 - 15:30 EET