Veri operatörleri bazen tüm veri merkezinin kapanmasına yol açabilecek hatalar yapar. Ancak bakım önlemleri, muayene prosedürleri ve sistem operatörlerinin sağduyusu ve deneyimi sayesinde bu sorunların çoğundan kaçınılabilir.
"Planlanmamış veri merkezi kesintisi", bir veri merkezinin kesintiye yol açan sorunları olduğunu söylemenin kibar bir yoludur. Temel neden donanım hatası, yazılım hatası veya insan hatası olsun, bu hataların çoğu önceden önlenebilir ve önlenmelidir. Günümüzün veri merkezlerindeki yüksek düzeyde risk yedekliliği sayesinde, olayların önceden önlenmesi tamamen mümkündür.
İlginç olan şey, bir veri merkezinde irili ufaklı hataların her zaman meydana gelebilmesi ve veri merkezlerinin çalışmayı durdurmasının neden olduğu hasarın kısa bir süre için bile olsa küçük olmamasıdır. Data Center Knowledge tarafından yapılan bir araştırmaya göre, veri merkezi kesintisi işletmelere dakika başına yaklaşık 7.900 dolara mal olabilir. Aslında, veri merkezleri 10 gün veya daha uzun süre kapalı kalan şirketlerin %93'ü bir yıl içinde iflas etti, %40'ı ise anında çöktü. Değerlendirilen 41 veri merkezi üzerinde yapılan başka bir çalışma, plansız kesintilerin ortalama maliyetinin 179 bin dolardan fazla iş kesintisini, yaklaşık 118 bin doları gelir kaybını ve yaklaşık 42 bin doları üretkenliği içerdiğini ortaya çıkardı. Veri merkezi yöneticileri, yaygın hataların ana nedenlerini araştırmaya ve düzeltmeye daha fazla odaklanırsa, potansiyel riskleri önemli ölçüde azaltabilirler.

Sorun, birçok veri merkezi operatörünün ve operatörünün, halihazırda mevcut olanı korumak ve güçlendirmek yerine genellikle büyümeye ve gelire daha fazla odaklanmasıdır. Günümüzde birçok kamu ve özel veri merkezindeki yöneticilere dikkat ederseniz, onların neredeyse yalnızca depolama kapasitesinin arttırılması, sunucu yoğunluğunun arttırılması ve sunucu yoğunluğunun arttırılması ile ilgilendiklerini göreceksiniz. örneğin soğutma sistemleri. Bunların hepsi harika, çok ihtiyaç duyulan ve veri depolama sektöründe inanılmaz bir büyümeyi gösteren şeyler olsa da, aynı zamanda veri merkezlerinin neden başarısız olduğunu da gösteriyor.
Bu makalede, veri merkezlerinin devre dışı bırakılmasının yaygın nedenlerini inceleyeceğiz ve yöneticilerin bu sorunları en aza indirmek ve hatta ortadan kaldırmak için neler yapabileceğini vurgulayacağız, bu sorunları tamamen çözeceğiz ve sisteminizin kararlılığını iyileştireceğiz.
Veri Merkezinin Çökmesine Yol Açan Nedenler
İnsanların neden olduğu hata
Bunlar en basit nedenlerdir ve aynı zamanda kaçınılması en zor olanlardan biridir. Basitçe söylemek gerekirse herkes hata yapabilir. Kesintilerin %22'sinin insan hatasından kaynaklandığı göz önüne alındığında, bu neden dikkatle değerlendirilmeye değerdir ve daha da önemlisi, nispeten kolay bir şekilde önlenebilir.
Yanlış sistem yetkilendirmesi
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Gerçekte çok az sayıda yönetici bir veri merkezindeki tüm sistemlere tam ve sınırsız erişime sahiptir. Bu iznin daha fazla kişiye verilmesi yerine erişimin sıkı bir şekilde yönetilmesi gerekiyor. Aksi halde sistemde ciddi bir hata oluşması son derece mümkündür. Örneğin 2014'teki Joyent olayında deneyimli bir yönetici, şirketin doğu veri merkezindeki tüm sanal makineleri yalnızca birkaç tıklamayla yanlışlıkla yeniden başlattı.
Kötü yedekleme prosedürleri
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Bakım görevlerini planlarken önemli ancak sıklıkla unutulan adımlardan biri yedekleme işlemidir. Çoğu zaman süreçler belgelenir ancak kapsamlı bir şekilde incelenmez ve çoğu zaman bakım sonrasında her şey orijinal biçimine tamamen geri döndürülmez.
Çok fazla değişiklik yapmak
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Bakım sırasında yöneticinin aynı anda çok fazla değişiklik yapmaya çalışması sorunlara neden olabilir. Birincisi, yöneticiler genellikle aceleci bir zihniyete sahiptirler çünkü kısa sürede çok sayıda görevi tamamlamak zorunda kalırlar ve bu da sıklıkla hatalara yol açar. İkincisi, aynı zaman diliminde çok fazla değişiklik meydana geldiğinden, değişiklik sonrası sorun gidermeyi çok daha zor bir görev haline getiriyor.
İnsan kaynakları yönetiminde gevşeklik
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Biraz sert gelebilir ama çalışanların merkezdeki kurallara nasıl sıkı bir şekilde uyması gerektiğini bilmesi ve bunları ihlal ettiğinde de ciddi şekilde disipline edilmesi gerekiyor. Örneğin, hiçbir veri merkezi çalışanların iş başındayken yemek yemesine veya içmesine izin vermez veya acil durum anahtarları açıkça etiketlenmeli ve emniyete alınmalıdır. Bunlar küçük görünebilir ancak büyük olaylara yol açabilir; bu nedenle kurallara her zaman sıkı bir şekilde uyulduğundan emin olun.
Sistem hatası
Yedek güç garanti edilmez, ekipman eskidir veya yanlış yapılandırılmıştır.
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Bir veri merkezinin çökmesinin en yaygın nedeni elektrik kesintisidir. Her an elektrik kesintisi yaşanabilir. Bu nedenle veri merkezleri ana elektriğin kesilmesi durumunda yedek güç kaynaklarıyla tasarlanmaktadır. Piller veya jeneratör sistemleri genellikle yedek güç olarak kullanılır. Sorun, akülerin zamanında değiştirilmemesi, jeneratörün muayene ve bakımının yapılmaması, elektrik kesintisi olduğunda sorunlara yol açabiliyor. Bütün bunlar, yedekleme yeteneklerinizin en çok ihtiyaç duyduğunuz anda kullanılamayabileceği anlamına gelir.
Elektrik kesintisi durumunda, UPS sistemleri aküleri yedek güç olarak kullanır ve bu da onları veri merkezlerinin çalışma süresini sürdürmenin önemli bir parçası haline getirir. Ancak pil her zaman iyi çalışmaz. Pil sağlığını kontrol etmek için üreticilerin kendileri tarafından önerilen bakımı yapın. Piller en az üç ayda bir, doğru kurulum, deşarj ve şarj açısından incelenmelidir. Buna görsel denetimler, kapasite kontrolleri ve yazılım veya bizzat UPS tedarikçisi aracılığıyla düzenli izleme dahildir.
Ayrıca yüksek sıcaklıklar sistemin pil ömrünü kısaltabilir. Özel bir UPS odası oluşturmak, akü ömründeki aşınma ve yıpranmayı azaltmaya yardımcı olabilir. Ayrıca pili sık sık boşaltmaktan kaçınmalı ve gevşek bağlantılara veya aşınmış konektörlere dikkat etmelisiniz. Kısacası UPS özellikle önemli bir sistemdir; makul tasarım, doğru kullanım ve sıkı bakım gerektirir.
Soğutma sisteminde arıza
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Bir veri merkezindeki mekanik sistemler çok fazla elektrik tüketir, bu da çalışırken büyük miktarda ısı yaydıkları anlamına gelir. Bir veri merkezi, bir dakikalık çalışmadan sonra krematoryuma dönüşebilir. Bu nedenle soğutma sistemi çok önemlidir. Sıcaklık sensörleriniz okunsa ve yöneticilere uyarılar gönderilse bile, her şey erimeden önce merkezin yedek soğutma prosedürlerini uygulamak için yeterli zamanınız olduğundan emin olmalısınız.
Ek olarak, birçok soğutma sistemi, modern, yüksek kapasiteli bir veri merkezindeki artan ısı seviyelerine ayak uyduracak şekilde tasarlanmamıştır. Yine veri merkezinizin %100 kapasiteyle çalıştığı durumların haritasını çıkarmak, gelecekte daha iyi soğutma sistemleri planlamanıza yardımcı olabilir. Sistem sıcaklık dalgalanmalarına karşı uyarı sistemlerinin kurulması da gereklidir. Bazı termal modelleme yazılımlarını ve bazı DCIM sistemlerini kullanabilirsiniz. Ayrıca kimyasal soğutucular su bazlı sistemlerden daha iyi bir seçimdir.
Otomatik dönüştürme işlemi düzgün çalışmıyor
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Çoğu hizmet sağlayıcı, kuruluş ve işletme, üretim veri merkezleri için kullanılan yedek veri merkezlerine sahiptir. Birincil veri merkezinde elektrik kesintisi olması durumunda yedek veri merkezi otomatik olarak başlatılacak ve tüm trafik bu yedekleme tesisine yönlendirilecektir. Doğru şekilde yapılırsa süreç son kullanıcıya kadar kesintisiz olmalıdır. Ne yazık ki, otomatik yük devretmeler çoğu zaman beklendiği gibi çalışmaz. Bu sorunun genel nedeni düzenli testlerin yapılmamasıdır. Üretim altyapısındaki küçük değişikliklerin bile otomatik yük devretme üzerinde büyük etkisi olabilir. Bu nedenle, altyapıda herhangi bir değişiklik yapılırken, süreçte herhangi bir sapma olmadığından emin olmak için otomatik yük devretme prosedürlerinin test edilmesi gerekecektir.
Eski donanım
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Her sistemin tüm donanımlarının belirli bir ömrü vardır. Bir donanımı ne kadar uzun süre kullanırsanız sorunlarla karşılaşma olasılığınız da o kadar artar. Bunu herkes biliyor ancak önemli bir uygulamanın sırf 10 yıllık bir donanımda çalıştığı için çökmesi yaygın bir durum. Bu sorunlar genellikle yeni donanım veya yazılım platformları için kapsamlı değiştirme ve yükseltme planlarının bulunmamasından veya bütçe yetersizliğinden kaynaklanmaktadır. Eğer konu paraysa yapacak bir şey yok. Ancak mümkün olduğu kadar uzun süre avantajdan yararlanmaya çalışırsanız, her an bir sorun ortaya çıkabilir ve meydana geldiğinde, sorunun neden olduğu hasar çok daha büyük olabilir.
Yangın söndürme sisteminde su sızıntısı sorunu var
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Çoğu modern veri merkezi, bilerek veya kazara etkinleştirildiğinde ekipmanlara zarar vermemek için susuz yangın koruma sistemleri kullanır. Ancak birçok eski tesis, veri merkezlerinde hâlâ geleneksel yangından korunma sistemlerini kullanıyor. Birçok su sızıntısı büyük kesintilere neden oldu.
Acil kapatma yanlışlıkla etkinleştirildi
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Çoğu veri merkezinde uygulanan yüksek düzeydeki fiziksel güvenlik yalnızca hırsızları caydırmakla kalmıyor. Ayrıca bir veri merkezinin nasıl çalıştığını anlamayan çalışanların önüne geçmek için de mevcutturlar. Örneğin, bir uygulama yöneticisi veri merkezine girer ve yanlışlıkla acil kapatmayı (EPO) tetikler. EPO, tüm sisteme giden gücün kesilmesinden sorumlu olan büyük kırmızı bir düğmedir. Ve açıkçası, anlamayan veya uzmanlığı olmayanlar için bu tür bir kafa karışıklığının tamamen mümkün olduğu açıktır.
Siber saldırı altında ddos
![Veri Merkezinin Çökmesine Yol Açan Nedenler Veri Merkezinin Çökmesine Yol Açan Nedenler]()
Yıllar geçtikçe siber saldırılar , 2010'da sadece %2'den 2016'da %22'ye çıkarak veri merkezi arızalarının önde gelen nedenlerinden biri haline geldi. Operatörler Veri merkezleri, saldırı risklerini erken tespit edecek ve azaltacak sistemler kurmak için harekete geçmelidir.
Veri merkezlerinin büyük ölçekli bir DDoS saldırısına karşı savunulması zordur . Çoğu İSS, ağın 3. ve 4. katmanlarında bir miktar koruma sağlar, ancak hizmetleriniz, özellikle HTTP GET veya çağrılar gibi benzer saldırılarla hedeflenebilen 7. katmanda ek korumaya ihtiyaç duyar. Trafiği yeniden yönlendirmek için güvenlik duvarları, IPS/IDS ve DDoS gibi risk azaltma hizmetleri birleştirilebilir.
Doğal afet
Son zamanlarda fırtına ve su baskınlarındaki artış, veri merkezlerinde önemli aksamalara neden olabilir. Amerika Birleşik Devletleri'nde 2010 yılında 250'den fazla doğal afet meydana geldi. İstatistiklere göre ABD'nin New Jersey eyaleti, 2012 yılında Sandy fırtınasının neden olduğu iş kesintisi nedeniyle 63,9 milyar dolar zarara uğradı.
Veri merkezi "çökmesi" olaylarından kaynaklanan hasarı sınırlamaya yönelik adımlar
Rutin bakım için kesinti süresi dikkatli bir şekilde planlanırsa ve müşteriler, özellikle trafiğin az olduğu bir dönemde merkezin kapalı kalma süresi konusunda önceden uyarılırsa, Müşteriler daha anlayışlı olacak ve hasarlar önemli ölçüde azalacaktır. En büyük hasar, beklenmedik bir şekilde ortaya çıktığında ve özellikle uzun sürdüğünde ve ek sorunlar ortaya çıktığında ortaya çıkar. Çalışanların işlerini etkili bir şekilde yapabilmeleri için tüm şirketin kaynak sistemini istikrarlı tutun ve BT departmanlarının yükünü azaltın.
Özellikle:
- Verilerinizi yedekleyin: Veri merkezi kesintisi yaşamanız durumunda verileriniz (ve daha da önemlisi müşterilerinizin verileri) başladığınızda hazır olmalıdır. Sorun gidermeye başlayın ve tekrar çalıştırın. Düzenli yedekleme yapmak gerçek bir erime riskini sınırlar. Şirketinizin maddi gücü yetiyorsa, EMC'nin VPLEX ürün grubu veya VEEAM'in Yedekleme ve Çoğaltma yazılımı gibi bazı ürünler, otomatik olarak bir yedekleme konumuna geçiş yaparak kesinti süresini en aza indirmeye yardımcı olabilir.
- Sunucu sisteminin düzenli olarak izlenmesini sağlayın: İzleme, düzenli olarak gerçekleştirebileceğiniz ve genellikle çok fazla maliyetli olmayan bir hizmettir. Bir 3. taraf izleme hizmeti, olası sunucu kesintilerini size bildirir, böylece sorunla hemen ilgilenebilirsiniz.
- İnsan hatasını en aza indirin: Sunucu sistemlerinde veya elektrik kablolarında çalışırken veya bunların etrafında dolaşırken bunlara kazara zarar vermemek için dikkatli olun veya uzmanlığınız olmadan gizemli anahtarlara dokunmayın. Sıvıları mekanik sistemlerden uzak tutun. Bir sunucunun yükseltilmesine veya bakıma ihtiyacı olduğunda veri koruma uzmanını arayın ve merkezin kurallarına uyun.
Küçük merkezlerden kurumsal ölçekli tesislere ve servis sağlayıcılara kadar her veri merkezi, kullanıcılara güvenilir hizmetler sunmak için %100 çaba harcamalıdır. Bakım ve insan faktörleri ilkelerini takip ederek geleceği planlamak için zaman ayırarak, veri merkeziniz en yaygın arıza nedenlerinden bazılarını önleyebilir.
daha fazla gör