Din nefericire serviciul de gazduire xhost.ro (pachetele gratuite si PersonalBP) a intampinat niste probleme hardware care au provocat un downtime total pentru site-urile utilizatorilor de apx 2.5 zile. In acest momentul totul a revenit la normal. Primele semne de probleme au aparut Sambata, apoi Duminica dupamasa - seara am remarcat degradarea performantei culminand Duminica noapte cand serviciile de pe server au "inghetat". Luni dimineata la prima ora - neputand accesa serverul - l-am repornit (hard reboot) si am constatat faptul ca storage-ul sau - un array raid 10 compus din 4 disk-uri (slot-uri 0, 1, 2 , 3)- functiona doar pe 2 din ele (0 si 2 , celelalte 2 se aflau, unul in starea rebuild - slot-ul 1 - si celalalt in starea failed - slot-ul 3). Pentru ca l-am gasit in aceasta stare am oprit toate serviciile expuse catre utilizatori pentru a-i permite controller-ului sa aloce toate resursele disponibile pentru a reface array-ul insa am remarcat faptul ca procesul este foarte lent (in mod normal ne asteptam la 1% / 2 - 3 min insa am remarcat faptul ca in realitate sync-ul se facea la o rata de 1% / 60 - 80 min ). Dupa ce am descoperit acest lucru am inceput sa analizam log-urile controller-ului sa vedem ce s-a intamplat peste weekend si am remarcat faptul ca unul din disk-uri - slot-ul 2 - avea delay-uri (intarzieri) mari la operatiunile de citire - aparute de Sambata - dar care nu fusesera raportate ca erori ca apoi sa primim alerte si sa putem interveni (pentru ca ce-i drept citirile erau finalizate cu succes) Mini rezumat: disk-urile din slot-urile 0 si 2 aveau datele bune, slot-ul 1 s-a resincronizat cu slot-ul 0 dupa cateva ore iar slot-ul 3 se sincroniza foarte incet. Nu aveam alta solutie decat sa lasam procesul de sincronizare intre 2 si 3 sa se finalizeze (pentru ca slot-ul 2 continea datele corecte) - proces care s-a incheat astzi in jurul orei 10:00 - apoi am inlocuit disk-ul din slotul 2 care a terminat procesul de sincronizare astazi in jurul orei 17:00. Se pare ca uneori, unele disk-uri, oricat de bune ar fi, pot avea defecte care nu sunt vazute ca defecte dar care pot afecta un array de stocare intr-un mod foarte dramatic. Sper ca nu v-am plictisit cu acest informatii oarecum tehnice, scopul a fost sa va prezentam o situatie rar intalnita (Bad Karma - probabil) dar care se poate intampla oricui si pe orice tip de hardware. Ne cerem scuze pentru neplacerile pe care vi le-a provocat aceasta intrerupere, ne bucuram ca am repus online serviciul de gazduire xhost.ro si speram sa adunam suficient uptime cu care apoi sa ne laudam pentru ca apartine unui serviciu de gazduire gratuita autohton.
Adaugat de: Admin
Social Media
BluePink Hosting SRL
CUI: 35533294, Reg. Com. J13/200/2016