Buna ziua,
In cursul serii de Miercuri, 28.03.2018, incepand cu orele 18.45 zona de cloud 2017 a prezentat probleme de acces. Sistemele noastre de alertare interna si-au facut treaba si intreaga echipa de suport a fost mobilizata fiind la dispozitia clientilor atat pe chat dar si prin tickete pe tot parcusul incidentului, iar telefonic doar pana la orele 20.00.
Zona de cloud 2017, a fost data in productie la inceputul anului 2017 avand la baza servere hypervizor de virtualizare KVM cu 2 procesoare E5-2620 v4 si pana la 384 GB RAM storage-ul unul centralizat ZFS cu 2 controlleri in configuratie Activ - Pasiv pentru a asigura redundanta si disponibilitate. Desi configuratia este una foarte stabila in general, pentru nevoile noastre s-a dovedit a fi insuficienta. Astfel la mijlocul lunii August 2017, am proiectat si dat in productie o zona noua de cloud, zona 2018.
Noua zona de cloud 2018, este bazata pe hypervizori de virtualizare KVM cu 2 procesoare E5-2690 v4 si 512 GB RAM. Storage-ul este unul de tip SDS (software definded storage) distribuit pe mai multe servere nod aflate in rack-uri diferite. Acest tip de storage asigura viteza , scalabilitate si redundanta la nivel avansat.
Revenind la incident, incepand din Octombrie 2017 am mutat incet majoritatea clientilor de pe zona 2017 pe zona 2018 o parte insa au ramas pe zona veche, clienti ce au fost afectati. Din punct de vedere tehnic fara a intra in prea multe detalii, hypervizorii ce asigura puterea de procesare a cloud-ului au pierdut conectivitatea cu sistemul de stocare, serverele controller nu mai permiteau accesul la informatia stocata pe SSD-uri.
Fiind un vorba de un incident foarte critic, am ales calea cea mai lunga si mai ales sigura de identificare a problemei , respectiv remediere. Prioritatea noastra a fost ca nici macar un bit de informatie sa nu fie pierdut. Obiectivul a fost atins nici un client nu a pierdut date.
Reversul medaliei a fost durata foarte mare de remediere, primul server redevind accesibil la orele 21.30 ultimul server afectat a fost pornit la 22.41 in aceeasi seara. Din pacate durata foarte mare de repornire a serverelor afectate a determinat nemultumire pentru clienti.
Ne pare rau pentru neplacerile cauzate de acest incident si va asiguram ca am lucrat continuu pe parcusul incidentului pentru a rezolva rapid.
Dupa incident am continuat migrarea tuturor clientilor de pe zona de cloud 2017 , iar in acest moment un singur server mai este gazduit acolo. Migrarea lui va fi realizata in noaptea de 3 spre 4 Aprilie, 2018.
Pe parcusul incidentului am publicat actualizari pe pagina noastra de status.romarg.com.
Va multumim ca sunteti alaturi de noi inclusiv in aceste momente mai putin placute si va asiguram inca o data de toata implicarea noastra.
Radu Tofan