Razones que llevaron al colapso del centro de datos

Los operadores de datos a veces cometen errores que pueden provocar el cierre de todo el centro de datos. Sin embargo, la mayoría de estos problemas pueden evitarse mediante medidas de mantenimiento, procedimientos de inspección y con el sentido común y la experiencia de los operadores del sistema.

Una "interrupción no planificada del centro de datos" es una forma educada de hablar de que un centro de datos tiene problemas que provocan un tiempo de inactividad. Ya sea que la causa principal sea un error de hardware, un error de software o un error humano, la mayoría de estos errores pueden y deben prevenirse de antemano. Con el alto nivel de redundancia de riesgos existente en los centros de datos actuales, es totalmente posible prevenir incidentes por adelantado.

Una cosa interesante es que todavía pueden ocurrir errores grandes y pequeños todo el tiempo en un centro de datos, y el daño causado cuando los centros de datos dejan de funcionar no es pequeño, aunque sea por un breve minuto. Según un estudio de Data Center Knowledge, el tiempo de inactividad del centro de datos puede costar a las empresas alrededor de 7900 dólares por minuto. De hecho, el 93% de las empresas con centros de datos inactivos durante 10 días o más quebraron en un año y el 40% colapsó inmediatamente. Y otro estudio de 41 centros de datos evaluados encontró que el costo promedio de las interrupciones no planificadas incluía más de $179 mil en interrupción del negocio, alrededor de $118 mil en pérdida de ingresos y alrededor de $42 mil en productividad. Si los administradores de los centros de datos simplemente se centraran más en investigar y corregir las principales causas de los errores comunes, reducirían significativamente los riesgos potenciales.

Razones que llevaron al colapso del centro de datos

El problema es que muchos operadores y operadores de centros de datos suelen centrarse más en el crecimiento y los ingresos en lugar de mantener y fortalecer lo que ya existe. Si presta atención a los administradores de muchos centros de datos públicos y privados de la actualidad, verá que se preocupan casi exclusivamente por aumentar la capacidad de almacenamiento, aumentar la densidad de servidores y modernizar granjas de servidores obsoletas en instalaciones más modernas con sistemas más eficientes. sistemas de refrigeración, por ejemplo. Si bien todo esto es excelente, muy necesario y muestra un crecimiento increíble en la industria del almacenamiento de datos, también muestra por qué los centros de datos están fallando, algo que sucede cada vez con más frecuencia.

En este artículo, exploraremos las razones comunes por las que los centros de datos están deshabilitados y resaltaremos lo que los administradores pueden hacer para minimizarlos o incluso eliminarlos, solucionar completamente estos problemas y mejorar la estabilidad de su sistema.

Razones que llevaron al colapso del centro de datos

Error causado por humanos

Estas son las causas más simples y también una de las más difíciles de evitar. En pocas palabras, todo el mundo puede cometer errores. Dado que el 22 % de las interrupciones son causadas por errores humanos, vale la pena considerar esta causa detenidamente y, lo que es más importante, se puede prevenir con relativa facilidad.

Autorización inadecuada del sistema

Razones que llevaron al colapso del centro de datos

En realidad, muy pocos administradores tienen acceso completo y sin restricciones a todos los sistemas de un centro de datos. En lugar de conceder este permiso a más personas, el acceso debe gestionarse estrictamente. De lo contrario, es muy posible que se produzca un error grave en el sistema. Por ejemplo, en el incidente de Joyent en 2014, un administrador experimentado reinició accidentalmente todas las máquinas virtuales en el centro de datos este de la empresa con solo unos pocos clics.

Malos procedimientos de respaldo

Razones que llevaron al colapso del centro de datos

Al planificar las tareas de mantenimiento, un paso importante pero que a menudo se olvida es el proceso de copia de seguridad. A menudo, los procesos se documentan pero no se revisan exhaustivamente, y muchas veces las cosas no se restauran por completo a su forma original después del mantenimiento.

Hacer demasiados cambios

Razones que llevaron al colapso del centro de datos

Durante el mantenimiento, si un administrador intenta realizar demasiados cambios a la vez, esto puede causar problemas. En primer lugar, los administradores suelen tener una mentalidad apresurada porque tienen que completar una gran cantidad de tareas en un corto período de tiempo, lo que a menudo conduce a errores. En segundo lugar, debido a que se producen tantos cambios en el mismo período de tiempo, la resolución de problemas posteriores al cambio es una tarea mucho más difícil.

Laxitud en la gestión de recursos humanos

Razones que llevaron al colapso del centro de datos

Suena un poco duro, pero los empleados deben saber seguir estrictamente las normas del centro y deben ser severamente disciplinados cuando las infrinjan. Por ejemplo, ningún centro de datos permite a los empleados comer o beber mientras están en el trabajo, o los interruptores de emergencia deben estar claramente etiquetados y asegurados. Estas cosas pueden parecer pequeñas, pero pueden provocar incidentes importantes, así que asegúrese de seguir siempre estrictamente las reglas.

Error del sistema

La energía de respaldo no está garantizada, el equipo es viejo o está mal configurado.

Razones que llevaron al colapso del centro de datos

La razón más común por la que un centro de datos deja de funcionar es por un corte de energía. Los cortes de energía pueden ocurrir en cualquier momento. Por lo tanto, los centros de datos están diseñados con fuentes de energía de respaldo en caso de que falle la energía principal. A menudo se utilizan baterías o sistemas generadores como energía de respaldo. El problema es que es posible que la batería no se reemplace a tiempo y que el generador no se inspeccione ni reciba mantenimiento, lo que genera problemas cuando se produce un corte de energía. Todo esto significa que es posible que sus capacidades de respaldo no estén disponibles cuando más las necesita.

En caso de un corte de energía, los sistemas UPS utilizan baterías como energía de respaldo, lo que las convierte en una parte esencial para mantener el tiempo de actividad de los centros de datos. Sin embargo, la batería no siempre funciona bien. Realizar el mantenimiento recomendado por los propios fabricantes para comprobar el estado de la batería. Al menos trimestralmente, se deben inspeccionar las baterías para comprobar su correcta instalación, descarga y carga. Esto incluye inspecciones visuales, controles de capacidad y monitoreo periódico a través de software o del propio proveedor de UPS.

Además, las altas temperaturas pueden acortar la duración de la batería del sistema. Construir una sala dedicada a UPS puede ayudar a reducir el desgaste de la vida útil de la batería. También debes evitar descargar la batería con frecuencia y cuidar bien las conexiones flojas o los conectores desgastados. En resumen, el UPS es un sistema particularmente importante, requiere un diseño razonable, un uso adecuado y un mantenimiento estricto.

Mal funcionamiento en el sistema de refrigeración.

Razones que llevaron al colapso del centro de datos

Los sistemas mecánicos de un centro de datos consumen mucha electricidad, lo que significa que emiten una gran cantidad de calor durante su funcionamiento. Un centro de datos puede convertirse en un crematorio después de un minuto de funcionamiento. Por eso el sistema de refrigeración es tan importante. E incluso si tiene lecturas de sensores de temperatura y alertas enviadas a los administradores, debe asegurarse de tener suficiente tiempo para implementar los procedimientos de enfriamiento de respaldo del centro antes de que todo se derrita.

Además, muchos sistemas de refrigeración no están realmente diseñados para soportar los crecientes niveles de calor en un centro de datos moderno de alta capacidad. Nuevamente, mapear situaciones en las que su centro de datos opera al 100 % de su capacidad puede ayudar a planificar mejores sistemas de enfriamiento en el futuro. También es necesario configurar sistemas de advertencia para las fluctuaciones de temperatura del sistema. Puede utilizar algún software de modelado térmico y algunos sistemas DCIM. Además, los refrigerantes químicos son una mejor opción que los sistemas a base de agua.

El proceso de conversión automática no funciona correctamente

Razones que llevaron al colapso del centro de datos

La mayoría de los proveedores de servicios, organizaciones y empresas tienen centros de datos de respaldo que se utilizan para centros de datos de producción. En caso de un corte de energía en el centro de datos principal, el centro de datos de respaldo se iniciará automáticamente y todo el tráfico se dirigirá a esa instalación de respaldo. Si se realiza correctamente, el proceso debería ser fluido hasta el usuario final. Desafortunadamente, las conmutaciones por error automáticas a menudo no funcionan como se esperaba. La causa habitual de este problema es la falta de pruebas periódicas. Incluso los pequeños cambios en la infraestructura de producción pueden tener un gran impacto en la conmutación por error automatizada. Por lo tanto, al realizar cambios en la infraestructura, los procedimientos automatizados de conmutación por error deberán probarse para garantizar que nada se haya desviado del proceso.

Hardware obsoleto

Razones que llevaron al colapso del centro de datos

Todo el hardware de cada sistema tiene una vida útil determinada. Y cuanto más utilice una pieza de hardware, más probabilidades tendrá de encontrar problemas. Todo el mundo lo sabe, pero es común que una aplicación importante falle simplemente porque se ejecuta en hardware con 10 años de antigüedad. Estos problemas a menudo surgen debido a la falta de planes integrales de reemplazo y actualización de nuevas plataformas de hardware o software, o por falta de presupuesto. Si es una cuestión de dinero, no hay nada que puedas hacer. Pero si simplemente intentas aprovechar el mayor tiempo posible, un problema puede ocurrir en cualquier momento, y cuando sucede, el daño causado por el problema puede ser mucho mayor.

El sistema de extinción de incendios tiene un problema con fugas de agua.

Razones que llevaron al colapso del centro de datos

La mayoría de los centros de datos modernos utilizan sistemas de protección contra incendios sin agua para que no dañen el equipo si se activan intencionalmente o accidentalmente. Pero muchas instalaciones más antiguas todavía utilizan sistemas tradicionales de protección contra incendios en sus centros de datos. Muchas fugas de agua han provocado importantes cortes.

El apagado de emergencia se activa accidentalmente

Razones que llevaron al colapso del centro de datos

El alto nivel de seguridad física existente en la mayoría de los centros de datos no simplemente disuade a los ladrones. También existen para evitar empleados que no entienden cómo funciona un centro de datos. Por ejemplo, un administrador de aplicaciones ingresa al centro de datos y accidentalmente activa un apagado de emergencia (EPO). EPO es un gran botón rojo, responsable de cortar la energía a todo el sistema. Y obviamente, para aquellos que no entienden o no tienen experiencia, tal confusión es completamente posible.

Bajo ciberataque, ddos

Razones que llevaron al colapso del centro de datos

A lo largo de los años, los ciberataques se han convertido en una de las principales causas de fallas en los centros de datos, desde solo el 2 % en 2010 hasta el 22 % en 2016. Los operadores de los centros de datos deben tomar medidas para establecer sistemas que detecten y mitiguen los riesgos de ataques de manera temprana.

Los centros de datos son difíciles de defender contra un ataque DDoS a gran escala . La mayoría de los ISP brindan cierta protección en las capas 3 y 4 de la red, pero sus servicios necesitan protección adicional en la capa 7, que puede atacarse específicamente a través de HTTP GET o ataques similares. Los servicios de mitigación como firewalls, IPS/IDS y DDoS se pueden combinar para redirigir el tráfico.

Desastre natural

El reciente aumento de tormentas e inundaciones puede causar perturbaciones significativas en los centros de datos. En 2010 ocurrieron más de 250 desastres naturales en Estados Unidos. Según las estadísticas, el estado de Nueva Jersey, EE.UU., sufrió pérdidas por 63.900 millones de dólares debido a la interrupción del negocio provocada por la supertormenta Sandy en 2012.

Pasos para limitar los daños causados ​​por incidentes de "colapso" de centros de datos

Si se planifica cuidadosamente el tiempo de inactividad para el mantenimiento de rutina y se advierte a los clientes con anticipación sobre el tiempo de inactividad del centro, especialmente durante un período de poco tráfico, los clientes serán más comprensivos y los daños se reducirán significativamente. El mayor daño ocurre cuando ocurre inesperadamente, y especialmente cuando dura mucho tiempo, y surgen problemas adicionales. Mantenga estable todo el sistema de recursos de la empresa para que los empleados puedan hacer su trabajo de manera efectiva, reduciendo la carga de los departamentos de TI.

Específicamente:

  • Haga una copia de seguridad de sus datos: en caso de que se produzca una interrupción en el centro de datos, sus datos (y, lo que es más importante, los datos de sus clientes) deberían estar listos cuando comience. Comience a solucionar el problema y vuelva a ejecutarlo. Realizar copias de seguridad periódicas limita el riesgo de una crisis real. Si su empresa puede permitírselo, algunos productos como la línea de productos VPLEX de EMC o el software de respaldo y replicación de VEEAM pueden ayudar a minimizar el tiempo de inactividad al cambiar automáticamente a una ubicación de respaldo.
  • Mantenga un monitoreo regular del sistema del servidor: el monitoreo es un servicio que puede realizar regularmente y generalmente no cuesta demasiado. Un servicio de monitoreo externo le notifica sobre un posible tiempo de inactividad del servidor para que pueda solucionar el problema de inmediato.
  • Minimice el error humano: tenga cuidado al trabajar o caminar alrededor de sistemas de servidores o cableado eléctrico para evitar dañarlos accidentalmente, o simplemente no toque interruptores misteriosos sin su experiencia. Mantenga los líquidos alejados de los sistemas mecánicos. Llame a un especialista en protección de datos cada vez que un servidor necesite una actualización o mantenimiento y cumpla con las normas del centro.

Cada centro de datos, desde pequeños centros hasta instalaciones y proveedores de servicios a escala empresarial, debe esforzarse al 100% por brindar servicios confiables a los usuarios. Al tomarse el tiempo para planificar el futuro, siguiendo los principios de mantenimiento y factores humanos, su centro de datos puede evitar algunas de las causas más comunes de fallas: problemas de interrupción.

ver más

Dejar un comentario

Cómo eliminar el aviso de solicitud de derechos de autor en la esquina derecha de la pantalla en Windows 10

Cómo eliminar el aviso de solicitud de derechos de autor en la esquina derecha de la pantalla en Windows 10

¿Ves una notificación de activación de Windows 10 en la esquina derecha de la pantalla? Este artículo le guiará sobre cómo eliminar el aviso de solicitud de derechos de autor en Windows 10.

Instrucciones de AZ sobre cómo instalar Windows 10 compilación 14393.222

Instrucciones de AZ sobre cómo instalar Windows 10 compilación 14393.222

Recientemente, Microsoft lanzó la última actualización acumulativa para usuarios de PC con Windows 10 llamada Build 14393.222. Esta actualización lanzada para Windows 10 corrige principalmente errores basados ​​en los comentarios de los usuarios y mejora la experiencia de rendimiento del sistema operativo.

Proteja su red informática con Bastion host en solo 3 pasos

Proteja su red informática con Bastion host en solo 3 pasos

¿Tiene computadoras en su red local que necesitan acceso externo? Usar un host bastión como guardián de su red puede ser una buena solución.

3 formas de borrar rápidamente todos los registros de eventos en Windows 10

3 formas de borrar rápidamente todos los registros de eventos en Windows 10

A veces es posible que necesites eliminar todos los registros de eventos antiguos a la vez. En esta guía, Quantrimang.com le mostrará 3 formas de eliminar rápidamente todos los registros de eventos en el Visor de eventos de Windows 10.

Cómo crear una tecla de Windows si tu teclado no está disponible

Cómo crear una tecla de Windows si tu teclado no está disponible

Si prefiere usar un teclado clásico antiguo, como el IBM Modelo M, que no incluye una tecla física de Windows, existe un método sencillo para agregar más, tomando prestada una tecla que no usa con frecuencia.

Cómo crear un modo de fondo transparente en Windows 10

Cómo crear un modo de fondo transparente en Windows 10

WindowTop es una herramienta que tiene la capacidad de atenuar todas las ventanas de aplicaciones y programas que se ejecutan en computadoras con Windows 10. O puede usar una interfaz de fondo oscuro en Windows.

Los métodos de IP falsos te ayudan a acceder de forma anónima

Los métodos de IP falsos te ayudan a acceder de forma anónima

En muchos artículos anteriores hemos mencionado que permanecer anónimo en línea es extremadamente importante. Cada año se filtra información privada, lo que hace que la seguridad en línea sea cada vez más necesaria. Esa es también la razón por la que deberíamos utilizar direcciones IP virtuales. ¡A continuación, aprenderemos sobre métodos para crear IP falsas!

Cómo desactivar la barra de idioma en la barra de tareas de Windows 8

Cómo desactivar la barra de idioma en la barra de tareas de Windows 8

La barra de idioma en Windows 8 es una barra de herramientas de idioma en miniatura diseñada para mostrarse automáticamente en la pantalla del escritorio. Sin embargo, mucha gente quiere ocultar esta barra de idioma en la barra de tareas.

Consejos para optimizar la velocidad de conexión a Internet de Linksys

Consejos para optimizar la velocidad de conexión a Internet de Linksys

Maximizar la velocidad de Internet es esencial para optimizar su conexión de red. Podrás tener una óptima experiencia de entretenimiento y trabajo utilizando computadoras, televisores con acceso a Internet, consolas de juegos, etc.

Cómo configurar WEP, WPA, WPA2 para el enrutador Linksys

Cómo configurar WEP, WPA, WPA2 para el enrutador Linksys

La conectividad inalámbrica es una necesidad hoy en día y, por eso, la seguridad inalámbrica es esencial para garantizar la seguridad en su red interna.