Operatorzy danych czasami popełniają błędy, które mogą doprowadzić do wyłączenia całego centrum danych. Jednakże większości tych problemów można uniknąć poprzez podjęcie działań konserwacyjnych, procedury kontrolne oraz zdrowy rozsądek i doświadczenie operatorów systemów.
„Nieplanowana awaria centrum danych” to uprzejmy sposób mówienia o problemach w centrum danych prowadzących do przestojów. Niezależnie od tego, czy podstawową przyczyną jest błąd sprzętowy, błąd oprogramowania czy błąd ludzki, większości tych błędów można i należy zapobiegać z wyprzedzeniem. Dzięki wysokiemu poziomowi redundancji ryzyka w dzisiejszych centrach danych, zapobieganie incydentom z wyprzedzeniem jest całkowicie możliwe.
Ciekawostką jest to, że w centrum danych ciągle mogą występować duże i małe błędy, a szkody powstałe w wyniku zatrzymania działania centrów danych nie są małe, nawet na krótki czas. Według badania przeprowadzonego przez Data Center Knowledge przestój centrum danych może kosztować firmy około 7900 dolarów na minutę. W rzeczywistości 93% firm, w których centra danych przestoiły się na 10 dni lub dłużej, zbankrutowało w ciągu roku, a 40% upadło natychmiast. Z innego badania przeprowadzonego w 41 centrach danych wynika, że średni koszt nieplanowanych przestojów obejmuje przerwy w działalności biznesowej o wartości ponad 179 tys. dolarów, utracone przychody o około 118 tys. dolarów i produktywność o wartości około 42 tys. dolarów. Gdyby menedżerowie centrów danych po prostu skupili się bardziej na badaniu i naprawianiu głównych przyczyn typowych błędów, znacznie zmniejszyliby potencjalne ryzyko.

Problem polega na tym, że wielu operatorów i operatorów centrów danych często koncentruje się bardziej na wzroście i przychodach, zamiast na utrzymaniu i wzmacnianiu tego, co już istnieje. Jeśli dzisiaj zwrócisz uwagę na administratorów wielu publicznych i prywatnych centrów danych, zobaczysz, że zajmują się oni prawie wyłącznie zwiększaniem pojemności pamięci masowej, zwiększaniem gęstości serwerów i zwiększaniem gęstości serwerów.Modernizuj przestarzałe farmy serwerów w bardziej nowoczesne obiekty z bardziej wydajnymi systemy chłodzenia, np. Chociaż wszystko to jest wspaniałe, bardzo potrzebne i pokazuje niesamowity rozwój branży przechowywania danych, pokazuje również, dlaczego centra danych zawodzą, co zdarza się coraz częściej.
W tym artykule przeanalizujemy najczęstsze przyczyny wyłączania centrów danych i podkreślimy, co administratorzy mogą zrobić, aby je zminimalizować lub nawet wyeliminować, całkowicie naprawić te problemy, a także poprawić stabilność systemu.
Przyczyny prowadzące do upadku Data Center
Błąd spowodowany przez człowieka
Są to najprostsze przyczyny, a jednocześnie jedne z najtrudniejszych do uniknięcia. Krótko mówiąc, każdy może popełnić błąd. Biorąc pod uwagę, że 22% przestojów jest spowodowanych błędem ludzkim, warto dokładnie rozważyć tę przyczynę i, co ważne, można jej stosunkowo łatwo zapobiec.
Niewłaściwa autoryzacja systemu
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
W rzeczywistości bardzo niewielu administratorów ma pełny i nieograniczony dostęp do wszystkich systemów w centrum danych. Zamiast udzielać tego uprawnienia większej liczbie osób, należy ściśle zarządzać dostępem. W przeciwnym razie jest całkiem możliwe, że w systemie może wystąpić poważny błąd. Na przykład podczas incydentu Joyent w 2014 r. doświadczony administrator przypadkowo uruchomił ponownie wszystkie maszyny wirtualne we wschodnim centrum danych firmy za pomocą zaledwie kilku kliknięć.
Złe procedury tworzenia kopii zapasowych
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Podczas planowania zadań konserwacyjnych ważnym, choć często zapominanym krokiem jest proces tworzenia kopii zapasowych. Często procesy są dokumentowane, ale nie są dokładnie sprawdzane, a po konserwacji wiele elementów nie zostaje całkowicie przywróconych do pierwotnej postaci.
Wprowadzanie zbyt wielu zmian
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Jeśli podczas konserwacji administrator spróbuje wprowadzić zbyt wiele zmian na raz, może to spowodować problemy. Po pierwsze, administratorzy często charakteryzują się pośpiechem, ponieważ muszą wykonać dużą liczbę zadań w krótkim czasie, co często prowadzi do błędów. Po drugie, ponieważ w tym samym czasie zachodzi tak wiele zmian, rozwiązywanie problemów po zmianach staje się znacznie trudniejszym zadaniem.
Luźność w zarządzaniu zasobami ludzkimi
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Brzmi to trochę surowo, ale pracownicy muszą wiedzieć, jak ściśle przestrzegać zasad panujących w ośrodku i surowo karać za ich łamanie. Na przykład żadne centrum danych nie pozwala pracownikom jeść ani pić podczas pracy, a wyłączniki awaryjne muszą być wyraźnie oznakowane i zabezpieczone. Te rzeczy mogą wydawać się drobne, ale mogą prowadzić do poważnych incydentów, dlatego upewnij się, że zasady są zawsze ściśle przestrzegane.
Błąd systemu
Zasilanie rezerwowe nie jest gwarantowane, sprzęt jest stary lub źle skonfigurowany.
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Najczęstszą przyczyną awarii centrum danych jest przerwa w dostawie prądu. Przerwy w dostawie prądu mogą zdarzyć się w każdej chwili. Dlatego centra danych projektuje się z zapasowymi źródłami zasilania na wypadek awarii głównego zasilania. Jako źródło zasilania rezerwowego często wykorzystuje się akumulatory lub systemy generatorów. Problem polega na tym, że akumulator może nie zostać wymieniony na czas, generator może nie być sprawdzany i konserwowany, co prowadzi do problemów w przypadku przerwy w dostawie prądu. Wszystko to oznacza, że możliwości tworzenia kopii zapasowych mogą nie być dostępne wtedy, gdy ich najbardziej potrzebujesz.
W przypadku przerwy w dostawie prądu systemy UPS korzystają z akumulatorów jako źródła zasilania rezerwowego, co czyni je istotnym elementem zapewniającym nieprzerwaną pracę centrów danych. Jednak bateria nie zawsze działa dobrze. Wykonuj czynności konserwacyjne zalecane przez samych producentów, aby sprawdzić stan akumulatora. Co najmniej raz na kwartał akumulatory należy sprawdzać pod kątem prawidłowego montażu, rozładowania i ładowania. Obejmuje to inspekcje wizualne, kontrole wydajności i regularne monitorowanie za pomocą oprogramowania lub samego dostawcy UPS.
Ponadto wysokie temperatury mogą skrócić żywotność baterii systemu. Zbudowanie dedykowanego pomieszczenia UPS może pomóc w zmniejszeniu zużycia baterii. Należy także unikać częstego rozładowywania akumulatora i zwracać szczególną uwagę na luźne połączenia lub zużyte złącza. Krótko mówiąc, UPS jest szczególnie ważnym systemem, wymaga rozsądnego projektu, prawidłowego użytkowania i ścisłej konserwacji.
Awaria układu chłodzenia
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Układy mechaniczne w centrum danych zużywają dużo energii elektrycznej, co oznacza, że podczas pracy emitują dużą ilość ciepła. Centrum danych może po jednej minucie pracy zmienić się w krematorium. Dlatego tak ważny jest układ chłodzenia. Nawet jeśli masz odczyty z czujników temperatury i wysyłasz powiadomienia do administratorów, musisz mieć pewność, że masz wystarczająco dużo czasu na wdrożenie procedur awaryjnego chłodzenia centrum, zanim wszystko się stopi. Uruchom”.
Ponadto wiele systemów chłodzenia nie jest zaprojektowanych tak, aby nadążały za zwiększonym poziomem ciepła w nowoczesnym centrum danych o dużej wydajności. Ponownie, określenie sytuacji, w których centrum danych działa ze 100% wydajnością, może pomóc w zaplanowaniu lepszych systemów chłodzenia w przyszłości. Konieczne jest również skonfigurowanie systemów ostrzegania o wahaniach temperatury systemu. Można użyć oprogramowania do modelowania termicznego i niektórych systemów DCIM. Ponadto chemiczne czynniki chłodnicze są lepszym wyborem niż systemy na bazie wody.
Proces automatycznej konwersji nie działa prawidłowo
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Większość usługodawców, organizacji i firm posiada zapasowe centra danych wykorzystywane w produkcyjnych centrach danych. W przypadku przerwy w dostawie prądu w głównym centrum danych, zapasowe centrum danych zostanie automatycznie uruchomione i cały ruch zostanie przekierowany do tego zapasowego centrum danych. Jeśli zostanie wykonany prawidłowo, proces powinien przebiegać bezproblemowo aż do użytkownika końcowego. Niestety automatyczne przełączanie awaryjne często nie działa zgodnie z oczekiwaniami. Typową przyczyną tego problemu jest brak regularnych testów. Nawet niewielkie zmiany w infrastrukturze produkcyjnej mogą mieć duży wpływ na automatyczne przełączanie awaryjne. Dlatego przy wprowadzaniu jakichkolwiek zmian w infrastrukturze należy przetestować zautomatyzowane procedury przełączania awaryjnego, aby upewnić się, że nic nie odbiega od procesu.
Przestarzały sprzęt
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Cały sprzęt każdego systemu ma określoną żywotność. Im dłużej korzystasz ze sprzętu, tym większe jest prawdopodobieństwo, że napotkasz problemy. Każdy o tym wie, ale często zdarza się, że ważna aplikacja ulega awarii tylko dlatego, że działa na sprzęcie mającym 10 lat. Problemy te często wynikają z braku kompleksowych planów wymiany i aktualizacji nowych platform sprzętowych lub programowych lub z powodu braku budżetu. Jeśli chodzi o pieniądze, to nic nie możesz zrobić. Jeśli jednak po prostu będziesz starał się jak najdłużej czerpać korzyści, problem może wystąpić w dowolnym momencie, a kiedy to nastąpi, szkody spowodowane przez problem mogą być znacznie większe.
W systemie przeciwpożarowym wystąpił problem z wyciekiem wody
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Większość nowoczesnych centrów danych wykorzystuje bezwodne systemy przeciwpożarowe, aby nie uszkodziły sprzętu w przypadku celowego lub przypadkowego uruchomienia. Jednak wiele starszych obiektów w swoich centrach danych nadal korzysta z tradycyjnych systemów przeciwpożarowych. Wiele wycieków wody spowodowało poważne awarie.
Awaryjne wyłączenie zasilania zostało włączone przypadkowo
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Wysoki poziom bezpieczeństwa fizycznego w większości centrów danych nie tylko odstrasza złodziei. Wprowadzono je również po to, aby unikać pracowników, którzy nie rozumieją, jak działa centrum danych. Na przykład administrator aplikacji wchodzi do centrum danych i przypadkowo uruchamia awaryjne wyłączenie zasilania (EPO). EPO to duży czerwony przycisk odpowiedzialny za odcięcie zasilania całego układu. I oczywiście dla tych, którzy nie rozumieją lub nie mają wiedzy, takie zamieszanie jest całkowicie możliwe.
Pod cyberatakiem, ddos
![Przyczyny prowadzące do upadku Data Center Przyczyny prowadzące do upadku Data Center]()
Z biegiem lat cyberataki stały się jedną z głównych przyczyn awarii centrów danych – z zaledwie 2% w 2010 r. do 22% w 2016 r. Operatorzy Centra danych muszą podjąć działania w celu opracowania systemów wczesnego wykrywania i ograniczania ryzyka ataków.
Centra danych są trudne do obrony przed atakiem DDoS na dużą skalę . Większość dostawców usług internetowych zapewnia pewną ochronę w warstwach 3 i 4 sieci, ale Twoje usługi wymagają dodatkowej ochrony w warstwie 7, na którą można konkretnie zaatakować za pośrednictwem protokołu HTTP GET lub wywołań podobnego ataku. Usługi łagodzące, takie jak zapory ogniowe, IPS/IDS i DDoS, można łączyć w celu przekierowywania ruchu.
Katastrofa naturalna
Niedawne nasilenie się burz i powodzi może spowodować znaczne zakłócenia w centrach danych. W 2010 roku w Stanach Zjednoczonych miało miejsce ponad 250 klęsk żywiołowych. Według statystyk stan New Jersey w USA poniósł straty w wysokości 63,9 miliardów dolarów w wyniku przerw w działalności gospodarczej spowodowanych przez superburzę Sandy w 2012 roku.
Kroki mające na celu ograniczenie szkód spowodowanych incydentami „zawalenia się” centrum danych
Jeśli przestoje związane z rutynową konserwacją zostaną starannie zaplanowane, a klienci zostaną z wyprzedzeniem ostrzeżeni o przestojach centrum, szczególnie w okresie małego ruchu, Klienci okażą się bardziej wyrozumiali, a szkody zostaną znacznie zmniejszone. Największe szkody powstają, gdy pojawiają się niespodziewanie, a zwłaszcza gdy trwają długo i pojawiają się dodatkowe problemy. Utrzymuj stabilny system zasobów całej firmy, aby pracownicy mogli efektywnie wykonywać swoją pracę, odciążając działy IT.
Konkretnie:
- Utwórz kopię zapasową danych: w przypadku awarii centrum danych Twoje dane (a co ważniejsze, dane Twoich klientów) powinny być gotowe od razu. Rozpocznij rozwiązywanie problemów i uruchom ponownie. Wykonywanie regularnych kopii zapasowych ogranicza ryzyko prawdziwego załamania. Jeśli Twoją firmę na to stać, niektóre produkty, takie jak linia produktów VPLEX firmy EMC lub oprogramowanie do tworzenia kopii zapasowych i replikacji firmy VEEAM, mogą pomóc zminimalizować przestoje poprzez automatyczne przełączanie do lokalizacji kopii zapasowych.
- Utrzymuj regularne monitorowanie systemu serwerowego: Monitoring to usługa, którą możesz wykonywać regularnie i zwykle nie kosztuje zbyt wiele. Zewnętrzna usługa monitorowania powiadamia Cię o potencjalnym przestoju serwera, dzięki czemu możesz natychmiast zająć się problemem.
- Minimalizuj błędy ludzkie: zachowaj ostrożność podczas pracy lub obchodzenia się z systemami serwerów lub przewodami elektrycznymi, aby uniknąć ich przypadkowego uszkodzenia, lub po prostu nie dotykaj tajemniczych przełączników bez Twojej wiedzy. Trzymaj ciecze z dala od układów mechanicznych. Zadzwoń do specjalisty ds. ochrony danych za każdym razem, gdy serwer wymaga modernizacji lub konserwacji i przestrzegaj zasad centrum.
Każde centrum danych, od małych centrów po obiekty i dostawców usług na skalę korporacyjną, musi w 100% dokładać wszelkich starań, aby zapewnić użytkownikom niezawodne usługi. Poświęcając czas na planowanie przyszłości, przestrzegając zasad konserwacji i czynników ludzkich, Twoje centrum danych może uniknąć niektórych z najczęstszych przyczyn awarii.
Zobacz więcej