Przyczyny prowadzące do upadku Data Center

Operatorzy danych czasami popełniają błędy, które mogą doprowadzić do wyłączenia całego centrum danych. Jednakże większości tych problemów można uniknąć poprzez podjęcie działań konserwacyjnych, procedury kontrolne oraz zdrowy rozsądek i doświadczenie operatorów systemów.

„Nieplanowana awaria centrum danych” to uprzejmy sposób mówienia o problemach w centrum danych prowadzących do przestojów. Niezależnie od tego, czy podstawową przyczyną jest błąd sprzętowy, błąd oprogramowania czy błąd ludzki, większości tych błędów można i należy zapobiegać z wyprzedzeniem. Dzięki wysokiemu poziomowi redundancji ryzyka w dzisiejszych centrach danych, zapobieganie incydentom z wyprzedzeniem jest całkowicie możliwe.

Ciekawostką jest to, że w centrum danych ciągle mogą występować duże i małe błędy, a szkody powstałe w wyniku zatrzymania działania centrów danych nie są małe, nawet na krótki czas. Według badania przeprowadzonego przez Data Center Knowledge przestój centrum danych może kosztować firmy około 7900 dolarów na minutę. W rzeczywistości 93% firm, w których centra danych przestoiły się na 10 dni lub dłużej, zbankrutowało w ciągu roku, a 40% upadło natychmiast. Z innego badania przeprowadzonego w 41 centrach danych wynika, że ​​średni koszt nieplanowanych przestojów obejmuje przerwy w działalności biznesowej o wartości ponad 179 tys. dolarów, utracone przychody o około 118 tys. dolarów i produktywność o wartości około 42 tys. dolarów. Gdyby menedżerowie centrów danych po prostu skupili się bardziej na badaniu i naprawianiu głównych przyczyn typowych błędów, znacznie zmniejszyliby potencjalne ryzyko.

Przyczyny prowadzące do upadku Data Center

Problem polega na tym, że wielu operatorów i operatorów centrów danych często koncentruje się bardziej na wzroście i przychodach, zamiast na utrzymaniu i wzmacnianiu tego, co już istnieje. Jeśli dzisiaj zwrócisz uwagę na administratorów wielu publicznych i prywatnych centrów danych, zobaczysz, że zajmują się oni prawie wyłącznie zwiększaniem pojemności pamięci masowej, zwiększaniem gęstości serwerów i zwiększaniem gęstości serwerów.Modernizuj przestarzałe farmy serwerów w bardziej nowoczesne obiekty z bardziej wydajnymi systemy chłodzenia, np. Chociaż wszystko to jest wspaniałe, bardzo potrzebne i pokazuje niesamowity rozwój branży przechowywania danych, pokazuje również, dlaczego centra danych zawodzą, co zdarza się coraz częściej.

W tym artykule przeanalizujemy najczęstsze przyczyny wyłączania centrów danych i podkreślimy, co administratorzy mogą zrobić, aby je zminimalizować lub nawet wyeliminować, całkowicie naprawić te problemy, a także poprawić stabilność systemu.

Przyczyny prowadzące do upadku Data Center

Błąd spowodowany przez człowieka

Są to najprostsze przyczyny, a jednocześnie jedne z najtrudniejszych do uniknięcia. Krótko mówiąc, każdy może popełnić błąd. Biorąc pod uwagę, że 22% przestojów jest spowodowanych błędem ludzkim, warto dokładnie rozważyć tę przyczynę i, co ważne, można jej stosunkowo łatwo zapobiec.

Niewłaściwa autoryzacja systemu

Przyczyny prowadzące do upadku Data Center

W rzeczywistości bardzo niewielu administratorów ma pełny i nieograniczony dostęp do wszystkich systemów w centrum danych. Zamiast udzielać tego uprawnienia większej liczbie osób, należy ściśle zarządzać dostępem. W przeciwnym razie jest całkiem możliwe, że w systemie może wystąpić poważny błąd. Na przykład podczas incydentu Joyent w 2014 r. doświadczony administrator przypadkowo uruchomił ponownie wszystkie maszyny wirtualne we wschodnim centrum danych firmy za pomocą zaledwie kilku kliknięć.

Złe procedury tworzenia kopii zapasowych

Przyczyny prowadzące do upadku Data Center

Podczas planowania zadań konserwacyjnych ważnym, choć często zapominanym krokiem jest proces tworzenia kopii zapasowych. Często procesy są dokumentowane, ale nie są dokładnie sprawdzane, a po konserwacji wiele elementów nie zostaje całkowicie przywróconych do pierwotnej postaci.

Wprowadzanie zbyt wielu zmian

Przyczyny prowadzące do upadku Data Center

Jeśli podczas konserwacji administrator spróbuje wprowadzić zbyt wiele zmian na raz, może to spowodować problemy. Po pierwsze, administratorzy często charakteryzują się pośpiechem, ponieważ muszą wykonać dużą liczbę zadań w krótkim czasie, co często prowadzi do błędów. Po drugie, ponieważ w tym samym czasie zachodzi tak wiele zmian, rozwiązywanie problemów po zmianach staje się znacznie trudniejszym zadaniem.

Luźność w zarządzaniu zasobami ludzkimi

Przyczyny prowadzące do upadku Data Center

Brzmi to trochę surowo, ale pracownicy muszą wiedzieć, jak ściśle przestrzegać zasad panujących w ośrodku i surowo karać za ich łamanie. Na przykład żadne centrum danych nie pozwala pracownikom jeść ani pić podczas pracy, a wyłączniki awaryjne muszą być wyraźnie oznakowane i zabezpieczone. Te rzeczy mogą wydawać się drobne, ale mogą prowadzić do poważnych incydentów, dlatego upewnij się, że zasady są zawsze ściśle przestrzegane.

Błąd systemu

Zasilanie rezerwowe nie jest gwarantowane, sprzęt jest stary lub źle skonfigurowany.

Przyczyny prowadzące do upadku Data Center

Najczęstszą przyczyną awarii centrum danych jest przerwa w dostawie prądu. Przerwy w dostawie prądu mogą zdarzyć się w każdej chwili. Dlatego centra danych projektuje się z zapasowymi źródłami zasilania na wypadek awarii głównego zasilania. Jako źródło zasilania rezerwowego często wykorzystuje się akumulatory lub systemy generatorów. Problem polega na tym, że akumulator może nie zostać wymieniony na czas, generator może nie być sprawdzany i konserwowany, co prowadzi do problemów w przypadku przerwy w dostawie prądu. Wszystko to oznacza, że ​​możliwości tworzenia kopii zapasowych mogą nie być dostępne wtedy, gdy ich najbardziej potrzebujesz.

W przypadku przerwy w dostawie prądu systemy UPS korzystają z akumulatorów jako źródła zasilania rezerwowego, co czyni je istotnym elementem zapewniającym nieprzerwaną pracę centrów danych. Jednak bateria nie zawsze działa dobrze. Wykonuj czynności konserwacyjne zalecane przez samych producentów, aby sprawdzić stan akumulatora. Co najmniej raz na kwartał akumulatory należy sprawdzać pod kątem prawidłowego montażu, rozładowania i ładowania. Obejmuje to inspekcje wizualne, kontrole wydajności i regularne monitorowanie za pomocą oprogramowania lub samego dostawcy UPS.

Ponadto wysokie temperatury mogą skrócić żywotność baterii systemu. Zbudowanie dedykowanego pomieszczenia UPS może pomóc w zmniejszeniu zużycia baterii. Należy także unikać częstego rozładowywania akumulatora i zwracać szczególną uwagę na luźne połączenia lub zużyte złącza. Krótko mówiąc, UPS jest szczególnie ważnym systemem, wymaga rozsądnego projektu, prawidłowego użytkowania i ścisłej konserwacji.

Awaria układu chłodzenia

Przyczyny prowadzące do upadku Data Center

Układy mechaniczne w centrum danych zużywają dużo energii elektrycznej, co oznacza, że ​​podczas pracy emitują dużą ilość ciepła. Centrum danych może po jednej minucie pracy zmienić się w krematorium. Dlatego tak ważny jest układ chłodzenia. Nawet jeśli masz odczyty z czujników temperatury i wysyłasz powiadomienia do administratorów, musisz mieć pewność, że masz wystarczająco dużo czasu na wdrożenie procedur awaryjnego chłodzenia centrum, zanim wszystko się stopi. Uruchom”.

Ponadto wiele systemów chłodzenia nie jest zaprojektowanych tak, aby nadążały za zwiększonym poziomem ciepła w nowoczesnym centrum danych o dużej wydajności. Ponownie, określenie sytuacji, w których centrum danych działa ze 100% wydajnością, może pomóc w zaplanowaniu lepszych systemów chłodzenia w przyszłości. Konieczne jest również skonfigurowanie systemów ostrzegania o wahaniach temperatury systemu. Można użyć oprogramowania do modelowania termicznego i niektórych systemów DCIM. Ponadto chemiczne czynniki chłodnicze są lepszym wyborem niż systemy na bazie wody.

Proces automatycznej konwersji nie działa prawidłowo

Przyczyny prowadzące do upadku Data Center

Większość usługodawców, organizacji i firm posiada zapasowe centra danych wykorzystywane w produkcyjnych centrach danych. W przypadku przerwy w dostawie prądu w głównym centrum danych, zapasowe centrum danych zostanie automatycznie uruchomione i cały ruch zostanie przekierowany do tego zapasowego centrum danych. Jeśli zostanie wykonany prawidłowo, proces powinien przebiegać bezproblemowo aż do użytkownika końcowego. Niestety automatyczne przełączanie awaryjne często nie działa zgodnie z oczekiwaniami. Typową przyczyną tego problemu jest brak regularnych testów. Nawet niewielkie zmiany w infrastrukturze produkcyjnej mogą mieć duży wpływ na automatyczne przełączanie awaryjne. Dlatego przy wprowadzaniu jakichkolwiek zmian w infrastrukturze należy przetestować zautomatyzowane procedury przełączania awaryjnego, aby upewnić się, że nic nie odbiega od procesu.

Przestarzały sprzęt

Przyczyny prowadzące do upadku Data Center

Cały sprzęt każdego systemu ma określoną żywotność. Im dłużej korzystasz ze sprzętu, tym większe jest prawdopodobieństwo, że napotkasz problemy. Każdy o tym wie, ale często zdarza się, że ważna aplikacja ulega awarii tylko dlatego, że działa na sprzęcie mającym 10 lat. Problemy te często wynikają z braku kompleksowych planów wymiany i aktualizacji nowych platform sprzętowych lub programowych lub z powodu braku budżetu. Jeśli chodzi o pieniądze, to nic nie możesz zrobić. Jeśli jednak po prostu będziesz starał się jak najdłużej czerpać korzyści, problem może wystąpić w dowolnym momencie, a kiedy to nastąpi, szkody spowodowane przez problem mogą być znacznie większe.

W systemie przeciwpożarowym wystąpił problem z wyciekiem wody

Przyczyny prowadzące do upadku Data Center

Większość nowoczesnych centrów danych wykorzystuje bezwodne systemy przeciwpożarowe, aby nie uszkodziły sprzętu w przypadku celowego lub przypadkowego uruchomienia. Jednak wiele starszych obiektów w swoich centrach danych nadal korzysta z tradycyjnych systemów przeciwpożarowych. Wiele wycieków wody spowodowało poważne awarie.

Awaryjne wyłączenie zasilania zostało włączone przypadkowo

Przyczyny prowadzące do upadku Data Center

Wysoki poziom bezpieczeństwa fizycznego w większości centrów danych nie tylko odstrasza złodziei. Wprowadzono je również po to, aby unikać pracowników, którzy nie rozumieją, jak działa centrum danych. Na przykład administrator aplikacji wchodzi do centrum danych i przypadkowo uruchamia awaryjne wyłączenie zasilania (EPO). EPO to duży czerwony przycisk odpowiedzialny za odcięcie zasilania całego układu. I oczywiście dla tych, którzy nie rozumieją lub nie mają wiedzy, takie zamieszanie jest całkowicie możliwe.

Pod cyberatakiem, ddos

Przyczyny prowadzące do upadku Data Center

Z biegiem lat cyberataki stały się jedną z głównych przyczyn awarii centrów danych – z zaledwie 2% w 2010 r. do 22% w 2016 r. Operatorzy Centra danych muszą podjąć działania w celu opracowania systemów wczesnego wykrywania i ograniczania ryzyka ataków.

Centra danych są trudne do obrony przed atakiem DDoS na dużą skalę . Większość dostawców usług internetowych zapewnia pewną ochronę w warstwach 3 i 4 sieci, ale Twoje usługi wymagają dodatkowej ochrony w warstwie 7, na którą można konkretnie zaatakować za pośrednictwem protokołu HTTP GET lub wywołań podobnego ataku. Usługi łagodzące, takie jak zapory ogniowe, IPS/IDS i DDoS, można łączyć w celu przekierowywania ruchu.

Katastrofa naturalna

Niedawne nasilenie się burz i powodzi może spowodować znaczne zakłócenia w centrach danych. W 2010 roku w Stanach Zjednoczonych miało miejsce ponad 250 klęsk żywiołowych. Według statystyk stan New Jersey w USA poniósł straty w wysokości 63,9 miliardów dolarów w wyniku przerw w działalności gospodarczej spowodowanych przez superburzę Sandy w 2012 roku.

Kroki mające na celu ograniczenie szkód spowodowanych incydentami „zawalenia się” centrum danych

Jeśli przestoje związane z rutynową konserwacją zostaną starannie zaplanowane, a klienci zostaną z wyprzedzeniem ostrzeżeni o przestojach centrum, szczególnie w okresie małego ruchu, Klienci okażą się bardziej wyrozumiali, a szkody zostaną znacznie zmniejszone. Największe szkody powstają, gdy pojawiają się niespodziewanie, a zwłaszcza gdy trwają długo i pojawiają się dodatkowe problemy. Utrzymuj stabilny system zasobów całej firmy, aby pracownicy mogli efektywnie wykonywać swoją pracę, odciążając działy IT.

Konkretnie:

  • Utwórz kopię zapasową danych: w przypadku awarii centrum danych Twoje dane (a co ważniejsze, dane Twoich klientów) powinny być gotowe od razu. Rozpocznij rozwiązywanie problemów i uruchom ponownie. Wykonywanie regularnych kopii zapasowych ogranicza ryzyko prawdziwego załamania. Jeśli Twoją firmę na to stać, niektóre produkty, takie jak linia produktów VPLEX firmy EMC lub oprogramowanie do tworzenia kopii zapasowych i replikacji firmy VEEAM, mogą pomóc zminimalizować przestoje poprzez automatyczne przełączanie do lokalizacji kopii zapasowych.
  • Utrzymuj regularne monitorowanie systemu serwerowego: Monitoring to usługa, którą możesz wykonywać regularnie i zwykle nie kosztuje zbyt wiele. Zewnętrzna usługa monitorowania powiadamia Cię o potencjalnym przestoju serwera, dzięki czemu możesz natychmiast zająć się problemem.
  • Minimalizuj błędy ludzkie: zachowaj ostrożność podczas pracy lub obchodzenia się z systemami serwerów lub przewodami elektrycznymi, aby uniknąć ich przypadkowego uszkodzenia, lub po prostu nie dotykaj tajemniczych przełączników bez Twojej wiedzy. Trzymaj ciecze z dala od układów mechanicznych. Zadzwoń do specjalisty ds. ochrony danych za każdym razem, gdy serwer wymaga modernizacji lub konserwacji i przestrzegaj zasad centrum.

Każde centrum danych, od małych centrów po obiekty i dostawców usług na skalę korporacyjną, musi w 100% dokładać wszelkich starań, aby zapewnić użytkownikom niezawodne usługi. Poświęcając czas na planowanie przyszłości, przestrzegając zasad konserwacji i czynników ludzkich, Twoje centrum danych może uniknąć niektórych z najczęstszych przyczyn awarii.

Zobacz więcej

Zostaw komentarz

Jak usunąć informację o żądaniu praw autorskich w prawym rogu ekranu w systemie Windows 10

Jak usunąć informację o żądaniu praw autorskich w prawym rogu ekranu w systemie Windows 10

Czy widzisz powiadomienie o aktywacji systemu Windows 10 w prawym rogu ekranu? W tym artykule dowiesz się, jak usunąć powiadomienie o żądaniu dotyczącym praw autorskich w systemie Windows 10.

Instrukcje od AZ dotyczące instalacji systemu Windows 10 w wersji 14393.222

Instrukcje od AZ dotyczące instalacji systemu Windows 10 w wersji 14393.222

Niedawno firma Microsoft wydała najnowszą aktualizację zbiorczą dla użytkowników komputerów PC z systemem Windows 10 o nazwie Build 14393.222. Ta aktualizacja wydana dla systemu Windows 10 naprawia głównie błędy na podstawie opinii użytkowników i poprawia wydajność systemu operacyjnego.

Chroń swoją sieć komputerową za pomocą hosta Bastion w zaledwie 3 krokach

Chroń swoją sieć komputerową za pomocą hosta Bastion w zaledwie 3 krokach

Czy masz komputery w sieci lokalnej, które wymagają dostępu zewnętrznego? Dobrym rozwiązaniem może być użycie hosta bastionowego jako strażnika sieci.

3 sposoby na szybkie wyczyszczenie wszystkich dzienników zdarzeń w systemie Windows 10

3 sposoby na szybkie wyczyszczenie wszystkich dzienników zdarzeń w systemie Windows 10

Czasami może być konieczne jednoczesne usunięcie wszystkich starych dzienników zdarzeń. W tym przewodniku Quantrimang.com pokaże Ci 3 sposoby szybkiego usunięcia wszystkich dzienników zdarzeń w Podglądzie zdarzeń systemu Windows 10.

Jak utworzyć klucz Windows, jeśli klawiatura nie jest dostępna

Jak utworzyć klucz Windows, jeśli klawiatura nie jest dostępna

Jeśli wolisz używać starej, klasycznej klawiatury, takiej jak IBM Model M, która nie zawiera fizycznego klawisza Windows, istnieje prosty sposób, aby dodać więcej, pożyczając klawisz, którego nie używasz często.

Jak utworzyć tryb przezroczystego tła w systemie Windows 10

Jak utworzyć tryb przezroczystego tła w systemie Windows 10

WindowTop to narzędzie, które ma możliwość przyciemnienia wszystkich okien aplikacji i programów działających na komputerach z systemem Windows 10. Możesz także użyć interfejsu z ciemnym tłem w systemie Windows.

Metody fałszywego adresu IP umożliwiają anonimowy dostęp

Metody fałszywego adresu IP umożliwiają anonimowy dostęp

W wielu poprzednich artykułach wspominaliśmy, że zachowanie anonimowości w Internecie jest niezwykle ważne. Co roku dochodzi do wycieku prywatnych informacji, co sprawia, że ​​bezpieczeństwo w Internecie staje się coraz bardziej konieczne. Z tego też powodu powinniśmy używać wirtualnych adresów IP. Poniżej dowiemy się o metodach tworzenia fałszywych adresów IP!

Jak wyłączyć pasek języka na pasku zadań systemu Windows 8

Jak wyłączyć pasek języka na pasku zadań systemu Windows 8

Pasek języka w systemie Windows 8 to miniaturowy pasek narzędzi języka, zaprojektowany tak, aby automatycznie wyświetlał się na ekranie komputera stacjonarnego. Jednak wiele osób chce ukryć ten pasek języka na pasku zadań.

Wskazówki dotyczące optymalizacji szybkości połączenia internetowego od Linksys

Wskazówki dotyczące optymalizacji szybkości połączenia internetowego od Linksys

Maksymalizacja szybkości Internetu jest niezbędna do optymalizacji połączenia sieciowego. Możesz cieszyć się optymalną rozrywką i pracą, korzystając z komputerów, telewizorów z dostępem do Internetu, konsol do gier itp.

Jak skonfigurować WEP, WPA, WPA2 dla routera Linksys

Jak skonfigurować WEP, WPA, WPA2 dla routera Linksys

Łączność bezprzewodowa jest dziś koniecznością i dlatego bezpieczeństwo sieci bezprzewodowej jest niezbędne do zapewnienia bezpieczeństwa w sieci wewnętrznej.