Às vezes, os operadores de dados cometem erros que podem levar ao desligamento de todo o data center. Contudo, a maioria destes problemas pode ser evitada através de medidas de manutenção, procedimentos de inspeção e pelo bom senso e experiência dos operadores do sistema.
Uma "interrupção não planejada do data center" é uma maneira educada de falar sobre um data center com problemas que levam ao tempo de inatividade. Quer a causa raiz seja um erro de hardware, um erro de software ou um erro humano, a maioria desses erros pode e deve ser evitada antecipadamente. Com o alto nível de redundância de riscos existente nos data centers atuais, é inteiramente possível prevenir incidentes antecipadamente.
Uma coisa interessante é que erros grandes e pequenos ainda podem ocorrer o tempo todo em um data center, e os danos causados quando os data centers param de operar não são pequenos, mesmo que por um curto período de tempo. De acordo com um estudo da Data Center Knowledge, o tempo de inatividade do data center pode custar às empresas cerca de US$ 7.900 por minuto. Na verdade, 93% das empresas com centros de dados inativos durante 10 dias ou mais faliram no espaço de um ano e 40% faliram imediatamente. E outro estudo de 41 data centers avaliados descobriu que o custo médio de interrupções não planejadas incluía mais de US$ 179 mil em interrupções de negócios, cerca de US$ 118 mil em receitas perdidas e cerca de US$ 42 mil em produtividade. Se os gestores de data centers simplesmente se concentrassem mais em pesquisar e corrigir as principais causas de erros comuns, reduziriam significativamente os riscos potenciais.

O problema é que muitos operadores e operadoras de data centers muitas vezes se concentram mais no crescimento e nas receitas, em vez de manter e fortalecer o que já existe. Se você prestar atenção aos administradores de muitos data centers públicos e privados hoje, verá que eles estão quase exclusivamente preocupados em aumentar a capacidade de armazenamento, aumentar a densidade do servidor e aumentar a densidade do servidor. sistemas de refrigeração, por exemplo. Embora tudo isso seja ótimo, muito necessário e mostre um crescimento incrível no setor de armazenamento de dados, também mostra por que os data centers estão falhando.
Neste artigo, exploraremos os motivos comuns pelos quais os data centers são desativados e destacaremos o que os administradores podem fazer para minimizá-los ou até mesmo eliminá-los, corrigir completamente esses problemas, bem como melhorar a estabilidade do seu sistema.
Razões que levam ao colapso do Data Center
Erro causado por humanos
Estas são as causas mais simples e também uma das mais difíceis de evitar. Simplificando, todos podem cometer erros. Com 22% das interrupções causadas por erro humano, vale a pena considerar cuidadosamente esta causa e, mais importante, pode ser evitada com relativa facilidade.
Autorização inadequada do sistema
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
Na realidade, poucos administradores têm acesso total e irrestrito a todos os sistemas de um data center. Em vez de conceder esta permissão a mais pessoas, o acesso deve ser gerido de forma rigorosa. Caso contrário, é perfeitamente possível que ocorra um erro grave no sistema. Por exemplo, no incidente de Joyent em 2014, um administrador experiente reiniciou acidentalmente todas as máquinas virtuais no data center leste da empresa com apenas alguns cliques.
Procedimentos de backup inadequados
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
Ao planejar tarefas de manutenção, uma etapa importante, mas muitas vezes esquecida, é o processo de backup. Freqüentemente, os processos são documentados, mas não revisados minuciosamente, e muitas vezes as coisas não são completamente restauradas à sua forma original após a manutenção.
Fazendo muitas alterações
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
Durante a manutenção, se um administrador tentar fazer muitas alterações de uma vez, isso poderá causar problemas. Primeiro, os administradores muitas vezes têm uma mentalidade apressada porque têm de concluir um grande número de tarefas num curto período de tempo, o que muitas vezes leva a erros. Em segundo lugar, como muitas mudanças estão acontecendo no mesmo período, a solução de problemas pós-alteração torna-se uma tarefa muito mais difícil.
Frouxidão na gestão de recursos humanos
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
Parece um pouco duro, mas os funcionários precisam saber como seguir rigorosamente as regras do centro e devem ser severamente disciplinados ao violá-las. Por exemplo, nenhum data center permite que os funcionários comam ou bebam durante o trabalho, ou os interruptores de emergência devem ser claramente identificados e protegidos. Essas coisas podem parecer pequenas, mas podem levar a incidentes graves, portanto, certifique-se de que as regras sejam sempre seguidas à risca.
Erro no sistema
A energia de reserva não é garantida, o equipamento é antigo ou mal configurado.
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
O motivo mais comum para a queda de um data center é devido a uma queda de energia. Quedas de energia podem acontecer a qualquer momento. Portanto, os data centers são projetados com fontes de energia de backup caso a energia principal falhe. Baterias ou sistemas geradores são frequentemente usados como energia de reserva. O problema é que a bateria pode não ser substituída a tempo, o gerador pode não ser inspecionado e mantido, causando problemas quando ocorre uma queda de energia. Tudo isso significa que seus recursos de backup podem não estar disponíveis quando você mais precisar deles.
No caso de uma queda de energia, os sistemas UPS utilizam baterias como energia de reserva, tornando-as uma parte essencial para manter o tempo de atividade dos data centers. No entanto, a bateria nem sempre funciona bem. Execute a manutenção recomendada pelos próprios fabricantes para verificar o estado da bateria. Pelo menos trimestralmente, as baterias devem ser inspecionadas quanto à instalação, descarga e carregamento adequados. Isto inclui inspeções visuais, verificações de capacidade e monitoramento regular por meio de software ou do próprio fornecedor do UPS.
Além disso, as altas temperaturas podem reduzir a vida útil da bateria do sistema. Construir uma sala UPS dedicada pode ajudar a reduzir o desgaste da vida útil da bateria. Você também deve evitar descarregar a bateria com frequência e cuidar bem de conexões soltas ou conectores desgastados. Resumindo, o UPS é um sistema particularmente importante, requer um design razoável, uso adequado e manutenção rigorosa.
Mau funcionamento no sistema de refrigeração
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
Os sistemas mecânicos em um data center consomem muita eletricidade, o que significa que emitem uma grande quantidade de calor durante a operação. Um data center pode se tornar um crematório após um minuto de operação. É por isso que o sistema de refrigeração é tão importante. E mesmo que você tenha leitura de sensores de temperatura e alertas enviados aos administradores, você deve ter certeza de que terá tempo suficiente para implementar os procedimentos de resfriamento de backup do centro antes que tudo derreta.
Além disso, muitos sistemas de resfriamento não são realmente projetados para acompanhar o aumento dos níveis de calor em um data center moderno de alta capacidade. Novamente, mapear situações em que seu data center opera com 100% da capacidade pode ajudar a planejar melhores sistemas de refrigeração no futuro. Também é necessário configurar sistemas de alerta para flutuações de temperatura do sistema. Você pode usar algum software de modelagem térmica e alguns sistemas DCIM. Além disso, os refrigerantes químicos são uma escolha melhor do que os sistemas à base de água.
O processo de conversão automática não está funcionando corretamente
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
A maioria dos provedores de serviços, organizações e empresas possui data centers de backup usados para data centers de produção. No caso de uma queda de energia no data center primário, o data center de backup será iniciado automaticamente e todo o tráfego será roteado para essa instalação de backup. Se feito corretamente, o processo deverá ser contínuo até o usuário final. Infelizmente, os failovers automáticos muitas vezes não funcionam conforme o esperado. A causa comum para esse problema é a falta de testes regulares. Mesmo pequenas alterações na infraestrutura de produção podem ter um grande impacto no failover automatizado. Portanto, ao fazer qualquer alteração na infraestrutura, os procedimentos automatizados de failover deverão ser testados para garantir que nada se desviou do processo.
Hardware desatualizado
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
Todo o hardware de cada sistema tem uma certa vida útil. E quanto mais você usar uma peça de hardware, maior será a probabilidade de encontrar problemas. Todo mundo sabe disso, mas é comum que um aplicativo importante trave só porque está sendo executado em um hardware com 10 anos de idade. Estes problemas surgem frequentemente devido à falta de planos abrangentes de substituição e atualização para novas plataformas de hardware ou software, ou devido à falta de orçamento. Se for uma questão de dinheiro, não há nada que você possa fazer. Mas se você simplesmente tentar aproveitar o máximo possível, um problema pode acontecer a qualquer momento e, quando isso acontece, os danos causados pelo problema podem ser muito maiores.
O sistema de supressão de incêndio tem um problema com vazamento de água
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
A maioria dos data centers modernos usa sistemas de proteção contra incêndio sem água, para que não danifiquem o equipamento se forem ativados propositalmente ou acidentalmente. Mas muitas instalações mais antigas ainda utilizam sistemas tradicionais de proteção contra incêndios nos seus data centers. Muitos vazamentos de água causaram grandes interrupções.
O desligamento de emergência foi ativado acidentalmente
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
O alto nível de segurança física implementado na maioria dos data centers não apenas dissuade os ladrões. Eles também existem para evitar funcionários que não entendem como funciona um data center. Por exemplo, um administrador de aplicação entra no data center e aciona acidentalmente um desligamento de emergência (EPO). EPO é um grande botão vermelho, responsável por cortar a energia de todo o sistema. E obviamente, para quem não entende ou não tem expertise, tal confusão é perfeitamente possível.
Sob ataque cibernético, ddos
![Razões que levam ao colapso do Data Center Razões que levam ao colapso do Data Center]()
Ao longo dos anos, os ataques cibernéticos tornaram-se uma das principais causas de falhas nos centros de dados, passando de apenas 2% em 2010 para 22% em 2016. Operadores Os centros de dados devem tomar medidas para estabelecer sistemas que detectem e mitiguem precocemente os riscos de ataques.
Os data centers são difíceis de defender contra ataques DDoS em grande escala . A maioria dos ISPs fornece alguma proteção nas camadas 3 e 4 da rede, mas seus serviços precisam de proteção adicional na camada 7, que pode ser direcionada especificamente via HTTP GET ou chamadas de ataque semelhante. Serviços de mitigação como firewalls, IPS/IDS e DDoS podem ser combinados para redirecionar o tráfego.
Desastre natural
O recente aumento de tempestades e inundações pode causar perturbações significativas nos data centers. Mais de 250 desastres naturais ocorreram em 2010 nos Estados Unidos. Segundo as estatísticas, o estado de Nova Jersey, EUA, sofreu perdas de US$ 63,9 bilhões devido à interrupção dos negócios causada pela supertempestade Sandy em 2012.
Etapas para limitar os danos causados por incidentes de “colapso” do data center
Se o tempo de inatividade para manutenção de rotina for cuidadosamente planejado e os clientes forem avisados com antecedência sobre o tempo de inatividade do centro, especialmente durante um período de baixo tráfego, os clientes serão mais compreensivos e os danos serão significativamente reduzidos. O maior dano ocorre quando ocorre inesperadamente e especialmente quando dura muito tempo e surgem problemas adicionais. Mantenha estável todo o sistema de recursos da empresa para que os funcionários possam realizar seu trabalho com eficiência, reduzindo a carga sobre os departamentos de TI.
Especificamente:
- Faça backup de seus dados: caso você enfrente uma interrupção no data center, seus dados (e, mais importante, os dados de seus clientes) deverão estar prontos quando você iniciar. Inicie a solução de problemas e execute novamente. A realização de backups regulares limita o risco de um colapso real. Se sua empresa puder pagar, alguns produtos, como a linha de produtos VPLEX da EMC ou o software de backup e replicação da VEEAM, podem ajudar a minimizar o tempo de inatividade, alternando automaticamente para um local de backup.
- Mantenha o monitoramento regular do sistema do servidor: O monitoramento é um serviço que você pode realizar regularmente e geralmente não custa muito. Um serviço de monitoramento terceirizado notifica você sobre um possível tempo de inatividade do servidor para que você possa resolver o problema imediatamente.
- Minimize o erro humano: Tenha cuidado ao trabalhar ou caminhar em torno de sistemas de servidores ou fiação elétrica para evitar danificá-los acidentalmente ou simplesmente não toque em interruptores misteriosos sem seu conhecimento. Mantenha os líquidos longe dos sistemas mecânicos. Ligue para um especialista em proteção de dados sempre que um servidor precisar de atualização ou manutenção e cumpra as regras do centro.
Cada data center, desde pequenos centros até instalações de escala empresarial e provedores de serviços, deve se esforçar 100% para fornecer serviços confiáveis aos usuários. Ao reservar um tempo para planejar o futuro, seguindo os princípios de manutenção e de fatores humanos, seu data center pode evitar algumas das causas mais comuns de falhas.
ver mais