Operatorii de date fac uneori greșeli care pot duce la închiderea întregului centru de date. Cu toate acestea, majoritatea acestor probleme pot fi evitate prin măsuri de întreținere, proceduri de inspecție și prin bunul simț și experiență a operatorilor de sistem.
O „întrerupere neplanificată a centrului de date” este un mod politicos de a vorbi despre un centru de date care are probleme care duc la timpi de nefuncționare. Indiferent dacă cauza principală este eroarea hardware, eroarea software sau eroarea umană, majoritatea acestor erori pot și ar trebui prevenite în avans. Cu nivelul ridicat de redundanță a riscurilor în centrele de date de astăzi, prevenirea incidentelor în avans este pe deplin posibilă.
Un lucru interesant este că erorile mari și mici pot apărea tot timpul într-un centru de date, iar daunele cauzate atunci când centrele de date încetează să funcționeze nu sunt mici, chiar și pentru o perioadă scurtă de timp. Potrivit unui studiu realizat de Data Center Knowledge, timpul de nefuncționare a centrului de date poate costa companiile aproximativ 7.900 USD pe minut. De fapt, 93% dintre companiile cu perioade de nefuncționare a centrelor de date de 10 zile sau mai mult au dat faliment în decurs de un an, iar 40% s-au prăbușit imediat. Și un alt studiu pe 41 de centre de date evaluate a constatat că costul mediu al întreruperilor neplanificate a inclus peste 179 mii USD în întreruperi ale afacerii, aproximativ 118 mii USD în venituri pierdute și aproximativ 42 mii USD în productivitate. Dacă managerii centrelor de date s-ar concentra pur și simplu pe cercetarea și remedierea principalelor cauze ale erorilor comune, ar reduce semnificativ riscurile potențiale.

Problema este că mulți operatori și operatori de centre de date se concentrează adesea mai mult pe creștere și venituri, în loc să mențină și să consolideze ceea ce există deja. Dacă acordați atenție administratorilor din multe centre de date publice și private astăzi, veți vedea că aceștia sunt aproape exclusiv preocupați de creșterea capacității de stocare, creșterea densității serverelor și creșterea densității serverelor. sisteme de răcire, de exemplu. Deși toate acestea sunt grozave, foarte necesare și arată o creștere incredibilă în industria stocării de date, arată și de ce centrele de date eșuează, se întâmplă din ce în ce mai frecvent.
În acest articol, vom explora motivele obișnuite pentru care centrele de date sunt dezactivate și vom evidenția ce pot face administratorii pentru a le minimiza sau chiar a le elimina.rezolvam complet aceste probleme, precum și îmbunătățim stabilitatea sistemului dvs.
Motivele care au dus la colapsul Centrului de date
Eroare cauzată de oameni
Acestea sunt cele mai simple cauze și, de asemenea, una dintre cele mai greu de evitat. Mai simplu spus, toată lumea poate face greșeli. Cu 22% dintre întreruperile cauzate de eroare umană, această cauză merită luată în considerare cu atenție și, cel mai important, poate fi prevenită relativ ușor.
Autorizare necorespunzătoare a sistemului
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
În realitate, foarte puțini administratori au acces complet și nerestricționat la toate sistemele dintr-un centru de date. În loc să acordați această permisiune mai multor persoane, accesul trebuie gestionat strict. În caz contrar, este absolut posibil să apară o eroare gravă în sistem. De exemplu, în incidentul Joyent din 2014, un administrator cu experiență a repornit din greșeală toate mașinile virtuale din centrul de date de est al companiei cu doar câteva clicuri.
Proceduri de backup slabe
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Atunci când planificați sarcinile de întreținere, un pas important, dar adesea uitat este procesul de backup. Adesea, procesele sunt documentate, dar nu sunt revizuite temeinic și de multe ori lucrurile nu sunt complet restaurate la forma lor originală după întreținere.
Făcând prea multe schimbări
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
În timpul întreținerii, dacă un administrator încearcă să facă prea multe modificări simultan, acest lucru poate cauza probleme. În primul rând, administratorii au adesea o mentalitate grăbită, deoarece trebuie să finalizeze un număr mare de sarcini într-o perioadă scurtă de timp, ceea ce duce adesea la greșeli. În al doilea rând, deoarece au loc atât de multe schimbări în același interval de timp, face ca depanarea după schimbare să fie o sarcină mult mai dificilă.
Laxitate în managementul resurselor umane
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Sună puțin dur, dar angajații trebuie să știe să respecte cu strictețe regulile din centru și trebuie să fie sever disciplinați atunci când le încalcă. De exemplu, niciun centru de date nu permite angajaților să mănânce sau să bea în timpul serviciului, sau comutatoarele de urgență trebuie să fie clar etichetate și securizate. Aceste lucruri pot părea mici, dar pot duce la incidente majore, așa că asigurați-vă că regulile sunt întotdeauna respectate cu strictețe.
Eroare de sistem
Alimentarea de rezervă nu este garantată, echipamentul este vechi sau configurat greșit.
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Cel mai frecvent motiv pentru care un centru de date se defectează este din cauza unei pene de curent. Întreruperea curentului se poate întâmpla în orice moment. Prin urmare, centrele de date sunt proiectate cu surse de alimentare de rezervă în cazul în care se întrerupe alimentarea principală. Bateriile sau sistemele generatoare sunt adesea folosite ca energie de rezervă. Problema este că bateria nu poate fi înlocuită la timp, generatorul nu poate fi inspectat și întreținut, ceea ce duce la probleme atunci când are loc o întrerupere a curentului. Toate acestea înseamnă că capabilitățile dvs. de backup pot să nu fie disponibile atunci când aveți cea mai mare nevoie de ele.
În cazul unei întreruperi de curent, sistemele UPS utilizează bateriile ca energie de rezervă, ceea ce le face o parte esențială a menținerii timpului de funcționare pentru centrele de date. Cu toate acestea, bateria nu funcționează întotdeauna bine. Efectuați întreținerea recomandată de producători înșiși pentru a verifica starea bateriei. Cel puțin trimestrial, bateriile trebuie inspectate pentru instalarea, descărcarea și încărcarea corespunzătoare. Acestea includ inspecții vizuale, verificări ale capacității și monitorizare regulată prin software sau furnizorul UPS însuși.
În plus, temperaturile ridicate pot scurta durata de viață a bateriei sistemului. Construirea unei camere UPS dedicate poate ajuta la reducerea uzurii duratei de viață a bateriei. De asemenea, ar trebui să evitați descărcarea frecventă a bateriei și să aveți grijă de conexiunile slăbite sau de conectorii uzați. Pe scurt, UPS este un sistem deosebit de important, necesită un design rezonabil, o utilizare adecvată și o întreținere strictă.
Defecțiune la sistemul de răcire
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Sistemele mecanice dintr-un centru de date consumă multă energie electrică, ceea ce înseamnă că emit o cantitate mare de căldură în timpul funcționării. Un centru de date poate deveni crematoriu după un minut de funcționare. De aceea este atât de important sistemul de răcire. Și chiar dacă ai citirea senzorilor de temperatură și alertele trimise administratorilor, trebuie să fii sigur că ai suficient timp pentru a implementa procedurile de răcire de rezervă ale centrului înainte ca totul să se topească.
În plus, multe sisteme de răcire nu sunt cu adevărat proiectate să țină pasul cu nivelurile crescute de căldură într-un centru de date modern de mare capacitate. Din nou, cartografierea situațiilor în care centrul dvs. de date funcționează la o capacitate de 100% poate ajuta la planificarea unor sisteme de răcire mai bune în viitor. De asemenea, este necesară configurarea unor sisteme de avertizare pentru fluctuațiile de temperatură ale sistemului. Puteți utiliza unele software de modelare termică și unele sisteme DCIM. În plus, agenții frigorifici chimici sunt o alegere mai bună decât sistemele pe bază de apă.
Procesul de conversie automată nu funcționează corect
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Majoritatea furnizorilor de servicii, organizațiilor și companiilor au centre de date de rezervă utilizate pentru centrele de date de producție. În cazul unei întreruperi de curent la centrul de date primar, centrul de date de rezervă va fi pornit automat și tot traficul va fi direcționat către acea unitate de rezervă. Dacă este făcut corect, procesul ar trebui să fie fără întreruperi până la utilizatorul final. Din păcate, failover-urile automate nu funcționează adesea așa cum era de așteptat. Cauza obișnuită a acestei probleme este lipsa testării regulate. Chiar și schimbările mici în infrastructura de producție pot avea un impact mare asupra failover-ului automatizat. Prin urmare, atunci când se efectuează modificări ale infrastructurii, procedurile automate de failover vor trebui testate pentru a se asigura că nimic nu a deviat de la proces.
Hardware învechit
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Tot hardware -ul fiecărui sistem are o anumită durată de viață. Și cu cât folosiți mai mult o bucată de hardware, cu atât este mai probabil să întâmpinați probleme. Toată lumea știe acest lucru, dar este obișnuit ca o aplicație importantă să se blocheze doar pentru că rulează pe hardware vechi de 10 ani. Aceste probleme apar adesea din cauza lipsei unor planuri complete de înlocuire și upgrade pentru noile platforme hardware sau software sau din cauza lipsei de buget. Dacă este o chestiune de bani, nu ai ce să faci. Dar dacă pur și simplu încerci să profiti cât mai mult posibil, o problemă se poate întâmpla în orice moment, iar atunci când se întâmplă, daunele cauzate de problemă pot fi mult mai mari.
Sistemul de stingere a incendiilor are o problemă cu scurgerile de apă
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Majoritatea centrelor de date moderne folosesc sisteme de protecție împotriva incendiilor fără apă, astfel încât să nu deterioreze echipamentele dacă sunt activate intenționat sau accidental. Dar multe facilități mai vechi încă folosesc sisteme tradiționale de protecție împotriva incendiilor în centrele lor de date. Multe scurgeri de apă au cauzat întreruperi majore.
Oprirea de urgență este activată accidental
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
Nivelul ridicat de securitate fizică existent la majoritatea centrelor de date nu descurajează pur și simplu hoții. De asemenea, sunt în vigoare pentru a evita angajații care nu înțeleg cum funcționează un centru de date. De exemplu, un administrator de aplicație intră în centrul de date și declanșează accidental o oprire de urgență (EPO). EPO este un buton roșu mare, responsabil pentru întreruperea alimentării întregului sistem. Și, evident, pentru cei care nu înțeleg sau nu au expertiză, o astfel de confuzie este cu totul posibilă.
Sub atac cibernetic, ddos
![Motivele care au dus la colapsul Centrului de date Motivele care au dus la colapsul Centrului de date]()
De-a lungul anilor, atacurile cibernetice au devenit una dintre principalele cauze ale eșecurilor centrelor de date, de la doar 2% în 2010 la 22% în 2016. Operatorii Centrele de date trebuie să ia măsuri pentru a stabili sisteme care să detecteze și să atenueze din timp riscurile atacurilor.
Centrele de date sunt greu de apărat împotriva unui atac DDoS la scară largă . Majoritatea ISP-urilor oferă o anumită protecție la straturile 3 și 4 ale rețelei, dar serviciile dumneavoastră au nevoie de protecție suplimentară la nivelul 7, care poate fi vizată în mod specific prin HTTP GET sau apeluri. Serviciile de atenuare precum firewall-urile, IPS/IDS și DDoS pot fi combinate pentru a redirecționa traficul.
Dezastru natural
Creșterea recentă a furtunilor și inundațiilor poate provoca perturbări semnificative în centrele de date. Peste 250 de dezastre naturale au avut loc în 2010 în Statele Unite. Potrivit statisticilor, statul New Jersey, SUA, a suferit pierderi de 63,9 miliarde de dolari din cauza întreruperii activității cauzate de superfurtuna Sandy în 2012.
Pași pentru limitarea daunelor cauzate de incidentele de „colaps” ale centrelor de date
Dacă timpul de nefuncționare pentru întreținerea de rutină este planificat cu atenție și clienții sunt avertizați în prealabil cu privire la timpul de nefuncționare a centrului, în special într-o perioadă de trafic redus, Clienții vor fi mai simpatici și daunele vor fi reduse semnificativ. Cele mai mari pagube apar atunci când apare în mod neașteptat și mai ales când durează mult și apar probleme suplimentare. Păstrați stabil întregul sistem de resurse al companiei, astfel încât angajații să-și poată face treaba eficient, reducând sarcina asupra departamentelor IT.
Specific:
- Faceți o copie de rezervă a datelor: în cazul în care vă confruntați cu o întrerupere a centrului de date, datele dvs. (și, mai important, datele clienților) ar trebui să fie gata când începeți. Începeți depanarea și rulați din nou. Efectuarea de backup-uri regulate limitează riscul unei colapsuri reale. Dacă compania dumneavoastră își poate permite, unele produse precum linia de produse VPLEX de la EMC sau software-ul de copiere și replicare de la VEEAM pot ajuta la minimizarea timpului de nefuncționare prin trecerea automată la o locație.
- Mențineți monitorizarea regulată a sistemului serverului: Monitorizarea este un serviciu pe care îl puteți efectua în mod regulat și, de obicei, nu costă prea mult. Un serviciu de monitorizare terță parte vă informează cu privire la potențialul timp de nefuncționare a serverului, astfel încât să vă puteți ocupa imediat de problemă.
- Minimizați erorile umane: aveți grijă când lucrați sau vă plimbați în jurul sistemelor de server sau cablajelor electrice pentru a evita deteriorarea accidentală a acestora sau pur și simplu nu atingeți întrerupătoarele misterioase fără expertiza dvs. Țineți lichidele departe de sistemele mecanice. Apelați un specialist în protecția datelor oricând un server are nevoie de modernizare sau întreținere și respectați regulile centrului.
Fiecare centru de date, de la centre mici până la facilități la scară largă și furnizori de servicii, trebuie să se străduiască 100% să ofere utilizatorilor servicii de încredere. Făcându-ți timp pentru a planifica viitorul, urmând principiile de întreținere și factori umani, centrul dvs. de date poate evita unele dintre cele mai comune cauze ale eșecului.
Vezi mai mult