Incident zona cloud 2017
Incident Report for ROMARG
Postmortem

Buna ziua,

In cursul serii de Miercuri, 28.03.2018, incepand cu orele 18.45 zona de cloud 2017 a prezentat probleme de acces. Sistemele noastre de alertare interna si-au facut treaba si intreaga echipa de suport a fost mobilizata fiind la dispozitia clientilor atat pe chat dar si prin tickete pe tot parcusul incidentului, iar telefonic doar pana la orele 20.00.

Zona de cloud 2017, a fost data in productie la inceputul anului 2017 avand la baza servere hypervizor de virtualizare KVM cu 2 procesoare E5-2620 v4 si pana la 384 GB RAM storage-ul unul centralizat ZFS cu 2 controlleri in configuratie Activ - Pasiv pentru a asigura redundanta si disponibilitate. Desi configuratia este una foarte stabila in general, pentru nevoile noastre s-a dovedit a fi insuficienta. Astfel la mijlocul lunii August 2017, am proiectat si dat in productie o zona noua de cloud, zona 2018.

Noua zona de cloud 2018, este bazata pe hypervizori de virtualizare KVM cu 2 procesoare E5-2690 v4 si 512 GB RAM. Storage-ul este unul de tip SDS (software definded storage) distribuit pe mai multe servere nod aflate in rack-uri diferite. Acest tip de storage asigura viteza , scalabilitate si redundanta la nivel avansat.

Revenind la incident, incepand din Octombrie 2017 am mutat incet majoritatea clientilor de pe zona 2017 pe zona 2018 o parte insa au ramas pe zona veche, clienti ce au fost afectati. Din punct de vedere tehnic fara a intra in prea multe detalii, hypervizorii ce asigura puterea de procesare a cloud-ului au pierdut conectivitatea cu sistemul de stocare, serverele controller nu mai permiteau accesul la informatia stocata pe SSD-uri.

Fiind un vorba de un incident foarte critic, am ales calea cea mai lunga si mai ales sigura de identificare a problemei , respectiv remediere. Prioritatea noastra a fost ca nici macar un bit de informatie sa nu fie pierdut. Obiectivul a fost atins nici un client nu a pierdut date.

Reversul medaliei a fost durata foarte mare de remediere, primul server redevind accesibil la orele 21.30 ultimul server afectat a fost pornit la 22.41 in aceeasi seara. Din pacate durata foarte mare de repornire a serverelor afectate a determinat nemultumire pentru clienti.

Ne pare rau pentru neplacerile cauzate de acest incident si va asiguram ca am lucrat continuu pe parcusul incidentului pentru a rezolva rapid.

Dupa incident am continuat migrarea tuturor clientilor de pe zona de cloud 2017 , iar in acest moment un singur server mai este gazduit acolo. Migrarea lui va fi realizata in noaptea de 3 spre 4 Aprilie, 2018.

Pe parcusul incidentului am publicat actualizari pe pagina noastra de status.romarg.com.

Va multumim ca sunteti alaturi de noi inclusiv in aceste momente mai putin placute si va asiguram inca o data de toata implicarea noastra.

Radu Tofan

Posted Apr 03, 2018 - 18:59 EEST

Resolved
Avem confirmarea finala ca totul functioneaza corespunzator. Vom inchide acest incident.

Daca totusi intampinati probleme va rugam sa ne anuntati la support@romarg.com

Ne pare rau pentru neplacerile cauzate, invitam clientii afectati de acest incident sa ne scrie la adresa billing@romarg.com , pentru a primi compensatiile corespunzatoare conform Angajamentului de Calitate (https://www.romarg.ro/angajament-de-calitate.html)

Vom reveni in cursul zilei de maine, cu o explicatie detaliata a incidentului.
Posted Mar 29, 2018 - 00:08 EEST
Monitoring
Din toate vericarile realizate putem confirma ca nu exista pierderi de date. Monitorizam in continuare inca 15 minute functionalitatea serverelor dupa care vom inchide acest incident

Revenim cu detalii.
Posted Mar 28, 2018 - 23:15 EEST
Update
Putem confirma ca in acest moment toate serverele afectate sunt pornite si functionale. In continuare facem verificari de consistenta pentru storage. Totusi sunt semnalate probleme.

Revenim cu detalii.
Posted Mar 28, 2018 - 22:42 EEST
Update
O mare parte din serverele afectate au fost repornite. Lucram sa pornim si ultimele. Facem in paralel verificari. Din informatiile pe care le avem pana la acest se pare ca nu exista pierderi de date. Totusi investigam in continuare.

Revenim cu detalii.
Posted Mar 28, 2018 - 22:10 EEST
Identified
Am reusit sa restabilim legatura cu storage-ul. Hypervizorii se pot conecta. In acest moment lucram sa repornim toate serverele afectate.

Revenim cu detalii.
Posted Mar 28, 2018 - 21:30 EEST
Investigating
Toate serverele gazduite aici prezinta probleme de accesare a storage-ului. Investigam la acest moment situatia. Revenim cu detalii.
Posted Mar 28, 2018 - 19:59 EEST