Functionare cu intermitenta a serviciilor

Incident Report for ROMARG

Postmortem

Aceasta postare vizeaza problemele de conectivitate care au afectat infrastructura noastra interna in data centerul ROMARG1 din Brasov.

Detalii initiale

Inca din primele zile ale anului 2023, realizam lucrari complexe de extindere a data center-ului nostru cu inca aproape 200 mp (data room si spatii conexe) pentru a putea creste capacitatea noastra pentru: servere dedicate, servicii de colocare dar si pentru solutii de tip disaster recovery respectiv cloud auto-scalabil ce urmeaza a fi adaugate in oferta comerciala in perioada urmatoare.

In paralel cu aceste lucrari, din luna Februarie am inceput pregatirea unui upgrade masiv al intregii infrastructuri pentru serviciile noastre care tin de ADN-ul ROMARG si anume gazduirea shared si infrastructura de virtualizare.

Aceste lucrari de upgrade ale infrastructurii vizeaza schimbarea completa a serverelor hipervizori pentru serverele virtuale si serverele fizice pentru clientii de gazduire shared. Consolidam infrastructura de 25 Gbps pentru fiecare server shared si facem upgrade de la 25 Gbps conectivitate hipervizori la 150 Gbps per server.

Lucrarile vizeaza conectivitatile la retele interne respectiv dar si conexiunile publice la internet.

Facem trecerea de la platforme hardware bazate pe Intel E5-2697A v4 si Gold 6148 la infrastructura ultra moderna construita in jurul procesoarelor de top de la AMD si anume Epyc 7543P, 74F3, 7763 si 7713.

Despre incident

In cursul weekendului trecut au fost instalate in rack-uri primele echipamente pentru platforma de virtualizare si configurate retelele interne si cele publice pentru noua infrastructura. Pe parcusul zilelor de luni, marti si miercuri pana la ora 13 au fost realizate configurari specifice si testari de functionalitate fara sa facem conectarea la infrastructura existenta si activa in data center. Am folosit ceea ce se numeste un mediu de test.

In urma acestor teste am concluzionat ca totul este perfect functional si putem sa facem conectarea la reteaua activa.

Acest lucru s-a produs inainte de ora 14, dar desi initial totul a fost conform asteptarilor in urmatoarele 10 minute au inceput sa apara anomalii in retea care au condus in final la blocarea partiala iar ulterior totala a traficului in retele interne si publice din data center pentru clientii nostri.

Totusi, in toata aceasta perioada au existat segmente de retea, respectiv clienti cu servere dedicate si clienti de gazduire shared a caror servicii nu au fost afectate sau foarte putin afectate.

Desi colegii nostri erau in data center si au intervenit imediat pentru deconectarea noii infrastructuri, efectele negative nu au disparut, ba mai mult pe masura ce minutele treceau totul parea sa se complice.

Data fiind natura impactului (segmente de retea neafectate, partial afectate iar altele total afectate) dar si complexitatea infrastructurii noastre a fost dificila in prima faza identificarea si izolarea problemei. Acesta este si motivul pentru care revenirea la normal a durat extrem de mult.

Ce am facut

In prima faza am izolat clientii care nu au fost afectati de incident si am conservat buna functionare. Iar ulterior folosind stocurile de echipamente de retea am reconfigurat si inlocuit acolo unde a fost cazul toate switch-urile, top of the rack, cele care asigura distributia traficului la nivel de rack.

Am refacut conexiunile fizice la nivelul retelelor interne si am izolat traficul complet prin circuite cu protectie.

Am revizuit toate retelele virtuale si distributia lor pe switch-urile core.

Am verificat, revizuit si aplicat masuri corective pe echipamentele de securitate care vegheaza in permanenta la protectia DDOS a clientilor nostri.

Am facut toate eforturile omenesti posibile, cu presiunea impactului pe care acest incident, unic in istoria ROMARG, il are asupra bunei functionari a activatii clientilor nostri.

Astfel, in dimineata zilei de 27 Aprilie la ora 05:08 (AM), traficul a revenit la normal. Din acel moment in urmatoarele minute toate serverele au fost din nou accesibile iar traficul s-a normalizat complet in urmatoarele ore.

Din pacate, nu s-a terminat aici, probleme au continuat sa fie pentru cativa clienti cu servere virtualizate neadministrate de ROMARG. Clienti care fie aveau serverele oprite fie au incercat operatiuni de restart pe parcursul perioadei de nefunctionare.

In urma incidentului a fost afectata comunicarea intre infrastructura care controleaza platforma de virtualizare si hipervizori, astfel incat operatiuni banale start sau restart nu functionau. Din acest motiv nu au putut porni serverele care erau oprite.

Desi am lucrat pentru remedierea acestor probleme inca de ieri, 27 Aprilie, de la prima sesizare si am escaladat problema catre dezvoltatorii platformei de virtualizare, abia in cursul acestei dimineti, 28 Aprilie, am gasit problema si am aplicat masurile corective pentru a o rezolva.

Ce facem acum

Continuam sa verificam inca o data toate setarile si modificarile pe care le-am adus retelei ROMARG sub presiune.

Am reconectat noua infrastructura ce urmeaza sa gazduiasca toti clienti de servicii shared si servere virtuale. Este online si vom incepe sa notificam cu privire la migrare.

In final

Vreau sa multumim tuturor clientilor care ne-au transmis incurajari si care au inteles sa ne ofere o doza de energie in momentele dificile dar si dupa.

Ca fondator al ROMARG, subliniez ca facem zilnic toate eforturile de a asigura cea mai buna infrastructura de hosting din Romania. Din pacate, nu tot timpul lucrurile ies asa cum ne dorim.

Atat mie, cat si echipei ROMARG ne pare rau pentru probleme cauzate de acest incident.

Radu TOFAN
Fondator ROMARG

Posted Apr 28, 2023 - 19:08 EEST

Resolved

In ultimele ore am monitorizat serviciile si totul functioneaza in parametri de performanta corespunzatori. Ne pare rau pentru neplacerile cauzate si va multumim pentru rabdare si intelegere.

Platforma de suport a redevenit disponibila si poate fi accesata la adresa: https://support.romarg.com/ro

Lucram intens sa preluam cu promptitudine toate solicitarile inregistrate, insa din cauza unui flux ridicat de clienti care ne-au contactat in ultimele ore, este posibil sa primiti raspuns intr-un timp mai indelungat de asteptare decat cel standard (maxim 30 de minute).

Revenim cel tarziu maine, 28 Aprilie, cu un rezumat al incidentului si masurile pe care le vom implementa pentru a evita pe viitor asemenea incidente.

Posted Apr 27, 2023 - 14:00 EEST

Monitoring

Catre toti partenerii nostri:

In primul rand, va multumim pentru rabdarea si intelegerea de care ati dat dovada in tot acest timp, stim ca aceasta situatie v-a creat neplaceri si ne pare rau pentru acest lucru. Serviciile sunt functionale, echipa tehnica a lucrat constant inclusiv pe parcursul noptii pentru restabilirea lor.

In prezent, este o prioritate pentru noi sa asiguram disponibilitatea platformei de suport pentru a raspunde punctual solicitarilor.

Continuam sa publicam pe aceasta pagina noi informatii pe masura ce sunt confirmate de echipa tehnica.
Din nou, va multumim pentru rabdarea si increderea acordata.

Posted Apr 27, 2023 - 10:47 EEST

Update

[UPDATE] Continuam sa investigam situatia aparuta la nivelul serviciilor. Va asiguram ca depunem toate eforturile pentru restabilirea accesului la servicii cat mai curand posibil, nefiind vorba despre o pierdere de date sau de o activitate malitioasa. De indata ce avem noi informatii vom reveni cu update.

Posted Apr 26, 2023 - 20:55 EEST

Investigating

Sistemele noastre de monitorizare au alertat cu privire la functionarea ingreunata pentru o parte din servicii. Investigam cauza revenim cu un update pe masura ce avem noutati.

Posted Apr 26, 2023 - 14:17 EEST

This incident affected: Shared Enduser, Shared Reseller, Servere VPS, and Servere Dedicate Administrate.