DNS Error
Incident Report for ROMARG
Postmortem

Asa cum ati putut constata in ultima saptamana ne-am confruntat cu mai multe incidente. Totul a inceptul cu o lucrare de excavatie pentru instalarea unor conducte de gaz in Balotesti. Aceste lucrari au dus la sectionarea unui cablu de fibra optica care asigura una din legaturile noastre cu Bucurestiul.
Circuitul respectiv este unul de 100 Gbps pe care transportam o parte din furnizorii internationali care ne asigura legaturile continentale si intercontinentale. Este unul din motivele pentru care daca folositi servicii de monitorizare externe (ex Pingdom, Uptime Robot etc) ati tot primit alerte de up / down.
Aceasta prima sectionare a fibrei a fost remediata in cateva ore la momentul respectiv de partenerul nostru care ne asigura transport. Din pacate insa remedierea a fost una provizorie, lucrarea finala de reparare a circuitului este programata in noaptea de 07.01.2022 intre orele 00.00 - 06.00.
Data fiind natura lucrarii provizorii, circuitul a fost pentru cateva zile instabil. Aceasta instabilitate (up/down) a dat peste cap sistemele de monitorizare, rutare trafic IRP si sistemul ce foloseste Machine Learning pentru a asigura protectia DDOS a infrastructurii ROMARG. Aceste anomalii au condus in cursul zilei de Luni (20.12.2021) la blocarea totala sau partiala a traficului legitim catre serverele DNS pentru aproximativ 60 de minute. Acest lucru a afectat total sau partial functionalitatea site-urilor ce folosesc dns-urile noastre. Pentru a evita repetarea acestor situatii pana la realizarea lucrarilor de reparare finala a circuitului in 07.01.2022, am luat deciza Luni sa oprimim anumite filtre de protectie a DNS-urilor.
Decizie care s-a dovedit a fi nefericita in cursul zilei de ieri cand servere DNS au fost tinta unui atac care a afectat iar functionalitatea site-urilor gazduite in data centerul nostru. Desi s-a intervenit imediat pentru reactivarea filtrelor si astfel contracarea atacului am inregistrat iar o intrerupere partiala sau totala de aproximativ 9 minute.
Dupa stabilizarea traficului au fost implementate o serie de masuri care ar trebui sa reduca semnificativ efectele unui viitor atac asupra serverelor dns.

Intelegem ca fiecare client se bazeaza pe serviciile furnizate de ROMARG si de stabilitatea lor. Ne pare rau pentru intreruperile inregistrate si va asiguram ca depunem toate eforturile pentru a evita cat mai mult aceste situatii.

Radu TOFAN
Fondator ROMARG

Posted Dec 22, 2021 - 13:20 EET

Resolved
Consideram incidentul rezolvat. In perioada de monitorizare nu au mai fost probleme.
Posted Dec 22, 2021 - 12:28 EET
Investigating
Intampinam probleme de stabililitate a serverelor DNS ca urmare a unui atac de tip Flood/DDOS impotriva lor.
Lucram la minimizarea efectelor.
Posted Dec 21, 2021 - 12:57 EET
This incident affected: ROMARG Core (Web Sites, Dns Servers, Client Area, Backup Servers, Cloud SpamExperts, Phone Support, Live Chat Support, Email/Ticket Support) and Shared Enduser, Shared Reseller.