Aceasta postare vizeaza problemele de conectivitate care au afectat infrastructura noastra interna in data centerul ROMARG1 din Brasov.
Detalii initiale
Inca din primele zile ale anului 2023, realizam lucrari complexe de extindere a data center-ului nostru cu inca aproape 200 mp (data room si spatii conexe) pentru a putea creste capacitatea noastra pentru: servere dedicate, servicii de colocare dar si pentru solutii de tip disaster recovery respectiv cloud auto-scalabil ce urmeaza a fi adaugate in oferta comerciala in perioada urmatoare.
In paralel cu aceste lucrari, din luna Februarie am inceput pregatirea unui upgrade masiv al intregii infrastructuri pentru serviciile noastre care tin de ADN-ul ROMARG si anume gazduirea shared si infrastructura de virtualizare.
Aceste lucrari de upgrade ale infrastructurii vizeaza schimbarea completa a serverelor hipervizori pentru serverele virtuale si serverele fizice pentru clientii de gazduire shared. Consolidam infrastructura de 25 Gbps pentru fiecare server shared si facem upgrade de la 25 Gbps conectivitate hipervizori la 150 Gbps per server.
Lucrarile vizeaza conectivitatile la retele interne respectiv dar si conexiunile publice la internet.
Facem trecerea de la platforme hardware bazate pe Intel E5-2697A v4 si Gold 6148 la infrastructura ultra moderna construita in jurul procesoarelor de top de la AMD si anume Epyc 7543P, 74F3, 7763 si 7713.
Despre incident
In cursul weekendului trecut au fost instalate in rack-uri primele echipamente pentru platforma de virtualizare si configurate retelele interne si cele publice pentru noua infrastructura. Pe parcusul zilelor de luni, marti si miercuri pana la ora 13 au fost realizate configurari specifice si testari de functionalitate fara sa facem conectarea la infrastructura existenta si activa in data center. Am folosit ceea ce se numeste un mediu de test.
In urma acestor teste am concluzionat ca totul este perfect functional si putem sa facem conectarea la reteaua activa.
Acest lucru s-a produs inainte de ora 14, dar desi initial totul a fost conform asteptarilor in urmatoarele 10 minute au inceput sa apara anomalii in retea care au condus in final la blocarea partiala iar ulterior totala a traficului in retele interne si publice din data center pentru clientii nostri.
Totusi, in toata aceasta perioada au existat segmente de retea, respectiv clienti cu servere dedicate si clienti de gazduire shared a caror servicii nu au fost afectate sau foarte putin afectate.
Desi colegii nostri erau in data center si au intervenit imediat pentru deconectarea noii infrastructuri, efectele negative nu au disparut, ba mai mult pe masura ce minutele treceau totul parea sa se complice.
Data fiind natura impactului (segmente de retea neafectate, partial afectate iar altele total afectate) dar si complexitatea infrastructurii noastre a fost dificila in prima faza identificarea si izolarea problemei. Acesta este si motivul pentru care revenirea la normal a durat extrem de mult.
Ce am facut
In prima faza am izolat clientii care nu au fost afectati de incident si am conservat buna functionare. Iar ulterior folosind stocurile de echipamente de retea am reconfigurat si inlocuit acolo unde a fost cazul toate switch-urile, top of the rack, cele care asigura distributia traficului la nivel de rack.
Am refacut conexiunile fizice la nivelul retelelor interne si am izolat traficul complet prin circuite cu protectie.
Am revizuit toate retelele virtuale si distributia lor pe switch-urile core.
Am verificat, revizuit si aplicat masuri corective pe echipamentele de securitate care vegheaza in permanenta la protectia DDOS a clientilor nostri.
Am facut toate eforturile omenesti posibile, cu presiunea impactului pe care acest incident, unic in istoria ROMARG, il are asupra bunei functionari a activatii clientilor nostri.
Astfel, in dimineata zilei de 27 Aprilie la ora 05:08 (AM), traficul a revenit la normal. Din acel moment in urmatoarele minute toate serverele au fost din nou accesibile iar traficul s-a normalizat complet in urmatoarele ore.
Din pacate, nu s-a terminat aici, probleme au continuat sa fie pentru cativa clienti cu servere virtualizate neadministrate de ROMARG. Clienti care fie aveau serverele oprite fie au incercat operatiuni de restart pe parcursul perioadei de nefunctionare.
In urma incidentului a fost afectata comunicarea intre infrastructura care controleaza platforma de virtualizare si hipervizori, astfel incat operatiuni banale start sau restart nu functionau. Din acest motiv nu au putut porni serverele care erau oprite.
Desi am lucrat pentru remedierea acestor probleme inca de ieri, 27 Aprilie, de la prima sesizare si am escaladat problema catre dezvoltatorii platformei de virtualizare, abia in cursul acestei dimineti, 28 Aprilie, am gasit problema si am aplicat masurile corective pentru a o rezolva.
Ce facem acum
Continuam sa verificam inca o data toate setarile si modificarile pe care le-am adus retelei ROMARG sub presiune.
Am reconectat noua infrastructura ce urmeaza sa gazduiasca toti clienti de servicii shared si servere virtuale. Este online si vom incepe sa notificam cu privire la migrare.
In final
Vreau sa multumim tuturor clientilor care ne-au transmis incurajari si care au inteles sa ne ofere o doza de energie in momentele dificile dar si dupa.
Ca fondator al ROMARG, subliniez ca facem zilnic toate eforturile de a asigura cea mai buna infrastructura de hosting din Romania. Din pacate, nu tot timpul lucrurile ies asa cum ne dorim.
Atat mie, cat si echipei ROMARG ne pare rau pentru probleme cauzate de acest incident.
Radu TOFAN
Fondator ROMARG