Pengendali data kadangkala membuat kesilapan yang boleh menyebabkan keseluruhan pusat data ditutup. Walau bagaimanapun, kebanyakan masalah ini boleh dielakkan melalui langkah-langkah penyelenggaraan, prosedur pemeriksaan dan oleh akal fikiran dan pengalaman pengendali sistem.
"Kemacetan pusat data yang tidak dirancang" ialah cara yang sopan untuk bercakap tentang pusat data yang mengalami masalah yang membawa kepada masa henti. Sama ada puncanya ialah ralat perkakasan, ralat perisian atau ralat manusia, kebanyakan ralat ini boleh, dan harus, dicegah terlebih dahulu. Dengan tahap redundansi risiko yang tinggi berlaku di pusat data hari ini, mencegah insiden lebih awal adalah mungkin.
Satu perkara yang menarik ialah ralat besar dan kecil masih boleh berlaku sepanjang masa dalam pusat data, dan kerosakan yang disebabkan apabila pusat data berhenti beroperasi bukanlah kecil, walaupun untuk masa yang singkat. Menurut kajian oleh Data Center Knowledge, masa henti pusat data boleh membebankan perniagaan kira-kira $7,900 seminit. Malah, 93% daripada syarikat yang mempunyai masa henti pusat data selama 10 hari atau lebih telah muflis dalam tempoh setahun, dan 40% runtuh serta-merta. Dan satu lagi kajian terhadap 41 pusat data yang dinilai mendapati bahawa kos purata gangguan yang tidak dirancang termasuk lebih daripada $179 ribu dalam gangguan perniagaan, kira-kira $118 ribu dalam hasil yang hilang dan kira-kira $42k dalam produktiviti. Jika pengurus pusat data hanya menumpukan lebih pada penyelidikan dan membetulkan punca utama ralat biasa, mereka akan mengurangkan potensi risiko dengan ketara.

Masalahnya ialah banyak pengendali dan pengendali pusat data sering menumpukan lebih kepada pertumbuhan dan hasil daripada mengekalkan dan mengukuhkan apa yang sudah ada. Jika anda memberi perhatian kepada pentadbir di banyak pusat data awam dan persendirian hari ini, anda akan melihat bahawa mereka hampir secara eksklusif mementingkan peningkatan kapasiti storan, meningkatkan ketumpatan pelayan dan meningkatkan kepadatan pelayan.mengubah suai ladang pelayan yang sudah lapuk menjadi kemudahan yang lebih moden dengan lebih cekap sistem penyejukan, contohnya. Walaupun semua ini hebat, sangat diperlukan dan menunjukkan pertumbuhan yang luar biasa dalam industri storan data, ia juga menunjukkan sebab pusat data gagal. berlaku semakin kerap.
Dalam artikel ini, kami akan meneroka sebab biasa mengapa pusat data dilumpuhkan, dan menyerlahkan perkara yang boleh dilakukan oleh pentadbir untuk meminimumkan atau menghapuskannya. menyelesaikan masalah ini sepenuhnya, serta meningkatkan kestabilan sistem anda.
Sebab yang membawa kepada keruntuhan Pusat Data
Kesilapan yang disebabkan oleh manusia
Ini adalah punca paling mudah dan juga salah satu yang paling sukar untuk dielakkan. Ringkasnya, semua orang boleh melakukan kesilapan. Dengan 22% gangguan disebabkan oleh kesilapan manusia, punca ini patut dipertimbangkan dengan teliti dan, yang penting, boleh dicegah dengan mudah.
Kebenaran sistem yang tidak betul
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Pada hakikatnya, sangat sedikit pentadbir yang mempunyai akses penuh dan tidak terhad kepada semua sistem dalam pusat data. Daripada memberikan kebenaran ini kepada lebih ramai orang, akses mesti diurus dengan ketat. Jika tidak, ralat yang serius mungkin berlaku dalam sistem. Contohnya, dalam insiden Joyent pada 2014, pentadbir berpengalaman secara tidak sengaja memulakan semula semua mesin maya di pusat data timur syarikat dengan hanya beberapa klik.
Prosedur sandaran yang lemah
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Apabila merancang tugas penyelenggaraan, langkah penting tetapi sering dilupakan ialah proses sandaran. Selalunya, proses didokumenkan tetapi tidak disemak dengan teliti, dan banyak kali perkara tidak dipulihkan sepenuhnya kepada bentuk asalnya selepas penyelenggaraan.
Membuat terlalu banyak perubahan
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Semasa penyelenggaraan, jika pentadbir cuba membuat terlalu banyak perubahan sekaligus, ini boleh menyebabkan masalah. Pertama, pentadbir sering mempunyai mentaliti yang tergesa-gesa kerana mereka perlu menyelesaikan sejumlah besar tugas dalam tempoh yang singkat, yang sering membawa kepada kesilapan. Kedua, kerana begitu banyak perubahan berlaku dalam jangka masa yang sama, ia menjadikan penyelesaian masalah selepas perubahan menjadi tugas yang lebih sukar.
Kelonggaran dalam pengurusan sumber manusia
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Bunyinya agak kasar, tetapi pekerja perlu tahu cara mematuhi peraturan di pusat dengan tegas dan mesti dikenakan disiplin yang teruk apabila melanggarnya. Contohnya, tiada pusat data membenarkan pekerja makan atau minum semasa bekerja, atau suis kecemasan mesti dilabel dan dilindungi dengan jelas. Perkara ini mungkin kelihatan kecil tetapi boleh membawa kepada insiden besar, jadi pastikan peraturan sentiasa dipatuhi dengan ketat.
Ralat sistem
Kuasa sandaran tidak dijamin, peralatan sudah lama atau salah konfigurasi.
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Sebab paling biasa pusat data terputus adalah disebabkan oleh gangguan bekalan elektrik. Gangguan bekalan elektrik boleh berlaku pada bila-bila masa. Oleh itu, pusat data direka bentuk dengan sumber kuasa sandaran sekiranya kuasa utama gagal. Bateri atau sistem penjana sering digunakan sebagai kuasa sandaran. Masalahnya, bateri mungkin tidak diganti dalam masa, penjana mungkin tidak diperiksa dan diselenggara, membawa kepada masalah apabila berlaku gangguan bekalan elektrik. Semua ini bermakna keupayaan sandaran anda mungkin tidak tersedia apabila anda amat memerlukannya.
Sekiranya berlaku gangguan bekalan elektrik, sistem UPS menggunakan bateri sebagai kuasa sandaran, menjadikannya bahagian penting dalam mengekalkan masa operasi untuk pusat data. Walau bagaimanapun, bateri tidak selalu berfungsi dengan baik. Lakukan penyelenggaraan yang disyorkan oleh pengilang sendiri untuk memeriksa kesihatan bateri. Sekurang-kurangnya setiap suku tahun, bateri hendaklah diperiksa untuk pemasangan, pelepasan dan pengecasan yang betul. Ini termasuk pemeriksaan visual, semakan kapasiti dan pemantauan berkala melalui perisian atau pembekal UPS itu sendiri.
Selain itu, suhu tinggi boleh memendekkan hayat bateri sistem. Membina bilik UPS khusus boleh membantu mengurangkan haus dan lusuh pada hayat bateri. Anda juga harus mengelak daripada menyahcas bateri dengan kerap dan menjaga sambungan yang longgar atau penyambung yang haus. Ringkasnya, UPS adalah sistem yang sangat penting, ia memerlukan reka bentuk yang munasabah, penggunaan yang betul dan penyelenggaraan yang ketat.
Kerosakan dalam sistem penyejukan
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Sistem mekanikal di pusat data menggunakan banyak elektrik, yang bermaksud ia mengeluarkan sejumlah besar haba semasa beroperasi. Pusat data boleh menjadi krematorium selepas satu minit beroperasi. Itulah sebabnya sistem penyejukan sangat penting. Dan walaupun anda mempunyai bacaan penderia suhu dan makluman dihantar kepada pentadbir, anda mesti pastikan anda mempunyai masa yang mencukupi untuk melaksanakan prosedur penyejukan sandaran pusat sebelum semuanya cair. jalankan".
Selain itu, banyak sistem penyejukan tidak benar-benar direka untuk mengikuti peningkatan tahap haba dalam pusat data berkapasiti tinggi moden. Sekali lagi, memetakan situasi di mana pusat data anda beroperasi pada kapasiti 100% boleh membantu merancang untuk sistem penyejukan yang lebih baik pada masa hadapan. Menyediakan sistem amaran untuk turun naik suhu sistem juga perlu. Anda boleh menggunakan beberapa perisian pemodelan terma dan beberapa sistem DCIM. Selain itu, penyejuk kimia adalah pilihan yang lebih baik daripada sistem berasaskan air.
Proses penukaran automatik tidak berfungsi dengan baik
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Kebanyakan pembekal perkhidmatan dan organisasi serta perniagaan mempunyai pusat data sandaran yang digunakan untuk pusat data pengeluaran. Sekiranya berlaku gangguan bekalan elektrik di pusat data utama, pusat data sandaran akan dimulakan secara automatik dan semua trafik akan dihalakan ke kemudahan sandaran tersebut. Jika dilakukan dengan betul, proses itu harus lancar hingga ke pengguna akhir. Malangnya, failover automatik selalunya tidak berfungsi seperti yang diharapkan. Punca biasa untuk masalah ini adalah kekurangan ujian biasa. Malah perubahan kecil dalam infrastruktur pengeluaran boleh memberi kesan besar pada failover automatik. Oleh itu, apabila membuat sebarang perubahan pada infrastruktur, prosedur failover automatik perlu diuji untuk memastikan tiada apa-apa yang menyimpang daripada proses tersebut.
Perkakasan ketinggalan zaman
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Semua perkakasan setiap sistem mempunyai jangka hayat tertentu. Dan semakin lama anda menggunakan sekeping perkakasan, semakin besar kemungkinan anda menghadapi masalah. Semua orang tahu perkara ini, tetapi adalah perkara biasa bagi aplikasi penting untuk ranap hanya kerana ia dijalankan pada perkakasan berusia 10 tahun. Masalah ini sering timbul kerana kekurangan pelan penggantian dan peningkatan yang komprehensif untuk platform perkakasan atau perisian baharu, atau kerana kekurangan belanjawan. Jika soal wang, tiada apa yang boleh anda lakukan. Tetapi jika anda hanya cuba mengambil kesempatan selama mungkin, masalah boleh berlaku pada bila-bila masa, dan apabila ia berlaku, kerosakan yang disebabkan oleh masalah itu boleh menjadi lebih besar.
Sistem pencegah kebakaran mempunyai masalah dengan kebocoran air
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Kebanyakan pusat data moden menggunakan sistem perlindungan kebakaran tanpa air supaya mereka tidak merosakkan peralatan jika diaktifkan secara sengaja atau tidak sengaja. Tetapi banyak kemudahan lama masih menggunakan sistem perlindungan kebakaran tradisional di pusat data mereka. Banyak kebocoran air telah menyebabkan gangguan besar.
Matikan kuasa kecemasan diaktifkan secara tidak sengaja
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Tahap keselamatan fizikal yang tinggi di kebanyakan pusat data tidak hanya menghalang pencuri. Mereka juga disediakan untuk mengelakkan pekerja yang tidak memahami cara pusat data berfungsi. Contohnya, pentadbir aplikasi masuk ke pusat data dan secara tidak sengaja mencetuskan kuasa mati kecemasan (EPO). EPO ialah butang merah yang besar, bertanggungjawab untuk memotong kuasa ke seluruh sistem. Dan jelas sekali, bagi mereka yang tidak memahami atau tidak mempunyai kepakaran, kekeliruan seperti itu adalah mungkin.
Di bawah serangan siber, ddos
![Sebab yang membawa kepada keruntuhan Pusat Data Sebab yang membawa kepada keruntuhan Pusat Data]()
Selama bertahun-tahun, serangan siber telah menjadi salah satu punca utama kegagalan pusat data, daripada hanya 2% pada 2010 kepada 22% pada 2016. Pengendali Pusat data mesti mengambil tindakan untuk mewujudkan sistem bagi mengesan dan mengurangkan risiko serangan lebih awal.
Pusat data sukar dipertahankan daripada serangan DDoS berskala besar . Kebanyakan ISP menyediakan beberapa perlindungan pada lapisan 3 dan 4 rangkaian, tetapi perkhidmatan anda memerlukan perlindungan tambahan pada lapisan 7, yang boleh disasarkan secara khusus melalui HTTP GET atau panggilan. serangan serupa. Perkhidmatan mitigasi seperti tembok api, IPS/IDS dan DDoS boleh digabungkan untuk mengubah hala lalu lintas.
Bencana alam
Peningkatan ribut dan banjir baru-baru ini boleh menyebabkan gangguan yang ketara kepada pusat data. Lebih daripada 250 bencana alam berlaku pada tahun 2010 di Amerika Syarikat. Menurut statistik, negeri New Jersey, Amerika Syarikat mengalami kerugian $63.9 bilion akibat gangguan perniagaan yang disebabkan oleh ribut besar Sandy pada 2012.
Langkah-langkah untuk mengehadkan kerosakan yang disebabkan oleh insiden "runtuh" pusat data
Jika masa henti untuk penyelenggaraan rutin dirancang dengan teliti dan pelanggan diberi amaran lebih awal tentang masa henti pusat, terutamanya semasa tempoh trafik rendah, Pelanggan akan lebih bersimpati dan kerosakan akan dikurangkan dengan ketara. Kerosakan terbesar berlaku apabila ia berlaku secara tidak dijangka, dan terutamanya apabila ia bertahan lama, dan masalah tambahan timbul. Pastikan keseluruhan sistem sumber syarikat stabil supaya pekerja boleh melakukan tugas mereka dengan berkesan, mengurangkan beban jabatan IT.
Secara khusus:
- Sandarkan data anda: Sekiranya anda menghadapi gangguan pusat data, data anda (dan lebih penting lagi, data pelanggan anda) harus sedia apabila anda bermula. Mulakan penyelesaian masalah dan jalankan semula. Melakukan sandaran biasa mengehadkan risiko krisis sebenar. Jika syarikat anda mampu membelinya, sesetengah produk seperti barisan produk VPLEX EMC atau perisian Sandaran dan Replikasi VEEAM boleh membantu meminimumkan masa henti dengan menukar lokasi secara automatik.
- Mengekalkan pemantauan tetap sistem pelayan: Pemantauan ialah perkhidmatan yang boleh anda lakukan secara kerap dan biasanya tidak memerlukan kos yang terlalu tinggi. Perkhidmatan pemantauan pihak ke-3 memberitahu anda tentang kemungkinan masa henti pelayan supaya anda boleh menangani isu tersebut dengan segera.
- Minimumkan ralat manusia: Berhati-hati semasa bekerja atau berjalan di sekitar sistem pelayan atau pendawaian elektrik untuk mengelak daripada merosakkannya secara tidak sengaja, atau jangan sentuh suis misteri tanpa kepakaran anda. Jauhkan cecair daripada sistem mekanikal. Hubungi pakar perlindungan data pada bila-bila masa pelayan memerlukan peningkatan atau penyelenggaraan, dan mematuhi peraturan pusat.
Setiap pusat data, daripada pusat kecil kepada kemudahan berskala perusahaan dan pembekal perkhidmatan, mesti berusaha 100% untuk menyediakan perkhidmatan yang boleh dipercayai kepada pengguna. Dengan meluangkan masa untuk merancang masa depan, mengikut prinsip penyelenggaraan dan faktor manusia, pusat data anda boleh mengelakkan beberapa punca kegagalan yang paling biasa.masalah gangguan.
lihat lagi