Motivele care au dus la colapsul Centrului de date

Operatorii de date fac uneori greșeli care pot duce la închiderea întregului centru de date. Cu toate acestea, majoritatea acestor probleme pot fi evitate prin măsuri de întreținere, proceduri de inspecție și prin bunul simț și experiență a operatorilor de sistem.

O „întrerupere neplanificată a centrului de date” este un mod politicos de a vorbi despre un centru de date care are probleme care duc la timpi de nefuncționare. Indiferent dacă cauza principală este eroarea hardware, eroarea software sau eroarea umană, majoritatea acestor erori pot și ar trebui prevenite în avans. Cu nivelul ridicat de redundanță a riscurilor în centrele de date de astăzi, prevenirea incidentelor în avans este pe deplin posibilă.

Un lucru interesant este că erorile mari și mici pot apărea tot timpul într-un centru de date, iar daunele cauzate atunci când centrele de date încetează să funcționeze nu sunt mici, chiar și pentru o perioadă scurtă de timp. Potrivit unui studiu realizat de Data Center Knowledge, timpul de nefuncționare a centrului de date poate costa companiile aproximativ 7.900 USD pe minut. De fapt, 93% dintre companiile cu perioade de nefuncționare a centrelor de date de 10 zile sau mai mult au dat faliment în decurs de un an, iar 40% s-au prăbușit imediat. Și un alt studiu pe 41 de centre de date evaluate a constatat că costul mediu al întreruperilor neplanificate a inclus peste 179 mii USD în întreruperi ale afacerii, aproximativ 118 mii USD în venituri pierdute și aproximativ 42 mii USD în productivitate. Dacă managerii centrelor de date s-ar concentra pur și simplu pe cercetarea și remedierea principalelor cauze ale erorilor comune, ar reduce semnificativ riscurile potențiale.

Motivele care au dus la colapsul Centrului de date

Problema este că mulți operatori și operatori de centre de date se concentrează adesea mai mult pe creștere și venituri, în loc să mențină și să consolideze ceea ce există deja. Dacă acordați atenție administratorilor din multe centre de date publice și private astăzi, veți vedea că aceștia sunt aproape exclusiv preocupați de creșterea capacității de stocare, creșterea densității serverelor și creșterea densității serverelor. sisteme de răcire, de exemplu. Deși toate acestea sunt grozave, foarte necesare și arată o creștere incredibilă în industria stocării de date, arată și de ce centrele de date eșuează, se întâmplă din ce în ce mai frecvent.

În acest articol, vom explora motivele obișnuite pentru care centrele de date sunt dezactivate și vom evidenția ce pot face administratorii pentru a le minimiza sau chiar a le elimina.rezolvam complet aceste probleme, precum și îmbunătățim stabilitatea sistemului dvs.

Motivele care au dus la colapsul Centrului de date

Eroare cauzată de oameni

Acestea sunt cele mai simple cauze și, de asemenea, una dintre cele mai greu de evitat. Mai simplu spus, toată lumea poate face greșeli. Cu 22% dintre întreruperile cauzate de eroare umană, această cauză merită luată în considerare cu atenție și, cel mai important, poate fi prevenită relativ ușor.

Autorizare necorespunzătoare a sistemului

Motivele care au dus la colapsul Centrului de date

În realitate, foarte puțini administratori au acces complet și nerestricționat la toate sistemele dintr-un centru de date. În loc să acordați această permisiune mai multor persoane, accesul trebuie gestionat strict. În caz contrar, este absolut posibil să apară o eroare gravă în sistem. De exemplu, în incidentul Joyent din 2014, un administrator cu experiență a repornit din greșeală toate mașinile virtuale din centrul de date de est al companiei cu doar câteva clicuri.

Proceduri de backup slabe

Motivele care au dus la colapsul Centrului de date

Atunci când planificați sarcinile de întreținere, un pas important, dar adesea uitat este procesul de backup. Adesea, procesele sunt documentate, dar nu sunt revizuite temeinic și de multe ori lucrurile nu sunt complet restaurate la forma lor originală după întreținere.

Făcând prea multe schimbări

Motivele care au dus la colapsul Centrului de date

În timpul întreținerii, dacă un administrator încearcă să facă prea multe modificări simultan, acest lucru poate cauza probleme. În primul rând, administratorii au adesea o mentalitate grăbită, deoarece trebuie să finalizeze un număr mare de sarcini într-o perioadă scurtă de timp, ceea ce duce adesea la greșeli. În al doilea rând, deoarece au loc atât de multe schimbări în același interval de timp, face ca depanarea după schimbare să fie o sarcină mult mai dificilă.

Laxitate în managementul resurselor umane

Motivele care au dus la colapsul Centrului de date

Sună puțin dur, dar angajații trebuie să știe să respecte cu strictețe regulile din centru și trebuie să fie sever disciplinați atunci când le încalcă. De exemplu, niciun centru de date nu permite angajaților să mănânce sau să bea în timpul serviciului, sau comutatoarele de urgență trebuie să fie clar etichetate și securizate. Aceste lucruri pot părea mici, dar pot duce la incidente majore, așa că asigurați-vă că regulile sunt întotdeauna respectate cu strictețe.

Eroare de sistem

Alimentarea de rezervă nu este garantată, echipamentul este vechi sau configurat greșit.

Motivele care au dus la colapsul Centrului de date

Cel mai frecvent motiv pentru care un centru de date se defectează este din cauza unei pene de curent. Întreruperea curentului se poate întâmpla în orice moment. Prin urmare, centrele de date sunt proiectate cu surse de alimentare de rezervă în cazul în care se întrerupe alimentarea principală. Bateriile sau sistemele generatoare sunt adesea folosite ca energie de rezervă. Problema este că bateria nu poate fi înlocuită la timp, generatorul nu poate fi inspectat și întreținut, ceea ce duce la probleme atunci când are loc o întrerupere a curentului. Toate acestea înseamnă că capabilitățile dvs. de backup pot să nu fie disponibile atunci când aveți cea mai mare nevoie de ele.

În cazul unei întreruperi de curent, sistemele UPS utilizează bateriile ca energie de rezervă, ceea ce le face o parte esențială a menținerii timpului de funcționare pentru centrele de date. Cu toate acestea, bateria nu funcționează întotdeauna bine. Efectuați întreținerea recomandată de producători înșiși pentru a verifica starea bateriei. Cel puțin trimestrial, bateriile trebuie inspectate pentru instalarea, descărcarea și încărcarea corespunzătoare. Acestea includ inspecții vizuale, verificări ale capacității și monitorizare regulată prin software sau furnizorul UPS însuși.

În plus, temperaturile ridicate pot scurta durata de viață a bateriei sistemului. Construirea unei camere UPS dedicate poate ajuta la reducerea uzurii duratei de viață a bateriei. De asemenea, ar trebui să evitați descărcarea frecventă a bateriei și să aveți grijă de conexiunile slăbite sau de conectorii uzați. Pe scurt, UPS este un sistem deosebit de important, necesită un design rezonabil, o utilizare adecvată și o întreținere strictă.

Defecțiune la sistemul de răcire

Motivele care au dus la colapsul Centrului de date

Sistemele mecanice dintr-un centru de date consumă multă energie electrică, ceea ce înseamnă că emit o cantitate mare de căldură în timpul funcționării. Un centru de date poate deveni crematoriu după un minut de funcționare. De aceea este atât de important sistemul de răcire. Și chiar dacă ai citirea senzorilor de temperatură și alertele trimise administratorilor, trebuie să fii sigur că ai suficient timp pentru a implementa procedurile de răcire de rezervă ale centrului înainte ca totul să se topească.

În plus, multe sisteme de răcire nu sunt cu adevărat proiectate să țină pasul cu nivelurile crescute de căldură într-un centru de date modern de mare capacitate. Din nou, cartografierea situațiilor în care centrul dvs. de date funcționează la o capacitate de 100% poate ajuta la planificarea unor sisteme de răcire mai bune în viitor. De asemenea, este necesară configurarea unor sisteme de avertizare pentru fluctuațiile de temperatură ale sistemului. Puteți utiliza unele software de modelare termică și unele sisteme DCIM. În plus, agenții frigorifici chimici sunt o alegere mai bună decât sistemele pe bază de apă.

Procesul de conversie automată nu funcționează corect

Motivele care au dus la colapsul Centrului de date

Majoritatea furnizorilor de servicii, organizațiilor și companiilor au centre de date de rezervă utilizate pentru centrele de date de producție. În cazul unei întreruperi de curent la centrul de date primar, centrul de date de rezervă va fi pornit automat și tot traficul va fi direcționat către acea unitate de rezervă. Dacă este făcut corect, procesul ar trebui să fie fără întreruperi până la utilizatorul final. Din păcate, failover-urile automate nu funcționează adesea așa cum era de așteptat. Cauza obișnuită a acestei probleme este lipsa testării regulate. Chiar și schimbările mici în infrastructura de producție pot avea un impact mare asupra failover-ului automatizat. Prin urmare, atunci când se efectuează modificări ale infrastructurii, procedurile automate de failover vor trebui testate pentru a se asigura că nimic nu a deviat de la proces.

Hardware învechit

Motivele care au dus la colapsul Centrului de date

Tot hardware -ul fiecărui sistem are o anumită durată de viață. Și cu cât folosiți mai mult o bucată de hardware, cu atât este mai probabil să întâmpinați probleme. Toată lumea știe acest lucru, dar este obișnuit ca o aplicație importantă să se blocheze doar pentru că rulează pe hardware vechi de 10 ani. Aceste probleme apar adesea din cauza lipsei unor planuri complete de înlocuire și upgrade pentru noile platforme hardware sau software sau din cauza lipsei de buget. Dacă este o chestiune de bani, nu ai ce să faci. Dar dacă pur și simplu încerci să profiti cât mai mult posibil, o problemă se poate întâmpla în orice moment, iar atunci când se întâmplă, daunele cauzate de problemă pot fi mult mai mari.

Sistemul de stingere a incendiilor are o problemă cu scurgerile de apă

Motivele care au dus la colapsul Centrului de date

Majoritatea centrelor de date moderne folosesc sisteme de protecție împotriva incendiilor fără apă, astfel încât să nu deterioreze echipamentele dacă sunt activate intenționat sau accidental. Dar multe facilități mai vechi încă folosesc sisteme tradiționale de protecție împotriva incendiilor în centrele lor de date. Multe scurgeri de apă au cauzat întreruperi majore.

Oprirea de urgență este activată accidental

Motivele care au dus la colapsul Centrului de date

Nivelul ridicat de securitate fizică existent la majoritatea centrelor de date nu descurajează pur și simplu hoții. De asemenea, sunt în vigoare pentru a evita angajații care nu înțeleg cum funcționează un centru de date. De exemplu, un administrator de aplicație intră în centrul de date și declanșează accidental o oprire de urgență (EPO). EPO este un buton roșu mare, responsabil pentru întreruperea alimentării întregului sistem. Și, evident, pentru cei care nu înțeleg sau nu au expertiză, o astfel de confuzie este cu totul posibilă.

Sub atac cibernetic, ddos

Motivele care au dus la colapsul Centrului de date

De-a lungul anilor, atacurile cibernetice au devenit una dintre principalele cauze ale eșecurilor centrelor de date, de la doar 2% în 2010 la 22% în 2016. Operatorii Centrele de date trebuie să ia măsuri pentru a stabili sisteme care să detecteze și să atenueze din timp riscurile atacurilor.

Centrele de date sunt greu de apărat împotriva unui atac DDoS la scară largă . Majoritatea ISP-urilor oferă o anumită protecție la straturile 3 și 4 ale rețelei, dar serviciile dumneavoastră au nevoie de protecție suplimentară la nivelul 7, care poate fi vizată în mod specific prin HTTP GET sau apeluri. Serviciile de atenuare precum firewall-urile, IPS/IDS și DDoS pot fi combinate pentru a redirecționa traficul.

Dezastru natural

Creșterea recentă a furtunilor și inundațiilor poate provoca perturbări semnificative în centrele de date. Peste 250 de dezastre naturale au avut loc în 2010 în Statele Unite. Potrivit statisticilor, statul New Jersey, SUA, a suferit pierderi de 63,9 miliarde de dolari din cauza întreruperii activității cauzate de superfurtuna Sandy în 2012.

Pași pentru limitarea daunelor cauzate de incidentele de „colaps” ale centrelor de date

Dacă timpul de nefuncționare pentru întreținerea de rutină este planificat cu atenție și clienții sunt avertizați în prealabil cu privire la timpul de nefuncționare a centrului, în special într-o perioadă de trafic redus, Clienții vor fi mai simpatici și daunele vor fi reduse semnificativ. Cele mai mari pagube apar atunci când apare în mod neașteptat și mai ales când durează mult și apar probleme suplimentare. Păstrați stabil întregul sistem de resurse al companiei, astfel încât angajații să-și poată face treaba eficient, reducând sarcina asupra departamentelor IT.

Specific:

  • Faceți o copie de rezervă a datelor: în cazul în care vă confruntați cu o întrerupere a centrului de date, datele dvs. (și, mai important, datele clienților) ar trebui să fie gata când începeți. Începeți depanarea și rulați din nou. Efectuarea de backup-uri regulate limitează riscul unei colapsuri reale. Dacă compania dumneavoastră își poate permite, unele produse precum linia de produse VPLEX de la EMC sau software-ul de copiere și replicare de la VEEAM pot ajuta la minimizarea timpului de nefuncționare prin trecerea automată la o locație.
  • Mențineți monitorizarea regulată a sistemului serverului: Monitorizarea este un serviciu pe care îl puteți efectua în mod regulat și, de obicei, nu costă prea mult. Un serviciu de monitorizare terță parte vă informează cu privire la potențialul timp de nefuncționare a serverului, astfel încât să vă puteți ocupa imediat de problemă.
  • Minimizați erorile umane: aveți grijă când lucrați sau vă plimbați în jurul sistemelor de server sau cablajelor electrice pentru a evita deteriorarea accidentală a acestora sau pur și simplu nu atingeți întrerupătoarele misterioase fără expertiza dvs. Țineți lichidele departe de sistemele mecanice. Apelați un specialist în protecția datelor oricând un server are nevoie de modernizare sau întreținere și respectați regulile centrului.

Fiecare centru de date, de la centre mici până la facilități la scară largă și furnizori de servicii, trebuie să se străduiască 100% să ofere utilizatorilor servicii de încredere. Făcându-ți timp pentru a planifica viitorul, urmând principiile de întreținere și factori umani, centrul dvs. de date poate evita unele dintre cele mai comune cauze ale eșecului.

Vezi mai mult

Lasă un comentariu

Cum să eliminați notificarea de solicitare a drepturilor de autor din colțul din dreapta al ecranului pe Windows 10

Cum să eliminați notificarea de solicitare a drepturilor de autor din colțul din dreapta al ecranului pe Windows 10

Vedeți o notificare de activare a Windows 10 în colțul din dreapta al ecranului? Acest articol vă va ghida cum să ștergeți notificarea de solicitare a drepturilor de autor pe Windows 10.

Instrucțiuni de la AZ despre cum să instalați Windows 10 build 14393.222

Instrucțiuni de la AZ despre cum să instalați Windows 10 build 14393.222

Recent, Microsoft a lansat cea mai recentă actualizare cumulativă pentru utilizatorii de PC Windows 10 numită Build 14393.222. Această actualizare lansată pentru Windows 10 remediază în principal erorile pe baza feedback-ului utilizatorilor și îmbunătățește experiența de performanță a sistemului de operare.

Protejați-vă rețeaua de computere cu gazda Bastion în doar 3 pași

Protejați-vă rețeaua de computere cu gazda Bastion în doar 3 pași

Aveți computere în rețeaua locală care au nevoie de acces extern? Utilizarea unei gazde bastion ca gatekeeper pentru rețeaua dvs. poate fi o soluție bună.

3 moduri de a șterge rapid toate jurnalele de evenimente în Windows 10

3 moduri de a șterge rapid toate jurnalele de evenimente în Windows 10

Uneori, poate fi necesar să ștergeți jurnalele vechi de evenimente dintr-o dată. În acest ghid, Quantrimang.com vă va arăta 3 moduri de a șterge rapid toate jurnalele de evenimente din Windows 10 Event Viewer.

Cum să creați o tastă Windows dacă tastatura nu este disponibilă

Cum să creați o tastă Windows dacă tastatura nu este disponibilă

Dacă preferați să utilizați o tastatură clasică veche, cum ar fi IBM Model M, care nu include o tastă fizică Windows, există o metodă ușoară de a adăuga mai multe, împrumutând o tastă pe care nu o utilizați des.

Cum se creează un mod de fundal transparent pe Windows 10

Cum se creează un mod de fundal transparent pe Windows 10

WindowTop este un instrument care are capacitatea de a estompa toate ferestrele aplicațiilor și programele care rulează pe computere cu Windows 10. Sau puteți utiliza o interfață cu fundal întunecat pe Windows.

Metodele IP false vă ajută să accesați anonim

Metodele IP false vă ajută să accesați anonim

În multe articole anterioare, am menționat că păstrarea anonimatului online este extrem de importantă. Informații private sunt scurse în fiecare an, ceea ce face securitatea online din ce în ce mai necesară. Acesta este și motivul pentru care ar trebui să folosim adrese IP virtuale. Mai jos, vom afla despre metodele de a crea IP-uri false!

Cum să dezactivați bara de limbă pe bara de activități Windows 8

Cum să dezactivați bara de limbă pe bara de activități Windows 8

Bara de limbă din Windows 8 este o bară de instrumente de limbă în miniatură concepută pentru a fi afișată automat pe ecranul desktop. Cu toate acestea, mulți oameni doresc să ascundă această bară de limbă în bara de activități.

Sfaturi pentru a optimiza viteza conexiunii la Internet de la Linksys

Sfaturi pentru a optimiza viteza conexiunii la Internet de la Linksys

Maximizarea vitezei de internet este esențială pentru optimizarea conexiunii la rețea. Puteți avea o experiență optimă de divertisment și de lucru folosind computere, televizoare gata de internet, console de jocuri etc.

Cum se configurează WEP, WPA, WPA2 pentru routerul Linksys

Cum se configurează WEP, WPA, WPA2 pentru routerul Linksys

Conectivitatea wireless este o necesitate astăzi și, din această cauză, securitatea wireless este esențială pentru a asigura siguranța în rețeaua dumneavoastră internă.