4 tipos de falhas que comprometem a disponibilidade máxima - e como evitá-las

A disponibilidade máxima é uma filosofia. Começa com o planeamento das suas instalações e permanece como um processo contínuo a cada passo da conceção, construção, comissionamento, operações, análise de falhas e recomissionamento.

Os operadores dos centros de dados podem tirar lições de outros setores que operem em condições de caráter crítico, como as companhias aéreas. Sempre que ocorre qualquer tipo de incidente de tráfego aéreo, o Departamento Nacional da Segurança dos Transportes (National Transportation Safety Board, NTSB) investiga e, eventualmente, elabora um documento de “lições aprendidas”. A ideia é tentar evitar a repetição do incidente no futuro. Assegurar a máxima disponibilidade em centros de dados de caráter crítico implica que as empresas adotem uma abordagem semelhante.

O NTSB afirma que os acidentes ocorrem devido a um ou mais tipos de falhas: falhas de conceção, falhas catastróficas, falhas agravadas e falhas por erro humano. Os períodos de inatividade em instalações de caráter crítico também podem ser atribuídos a estes quatro tipos de falhas e cada um requer uma abordagem diferente em programas de prevenção e “lições aprendidas”.

1. Falhas de conceção

As falhas de conceção podem ser eliminadas através de um planeamento adequado e pelo envolvimento de fabricantes competentes. Comece com o fim em mente e elabore um documento com os objetivos da conceção que enuncie claramente os seus requisitos – ao pormenor. Quer se trate de uma nova construção, um upgrade ou a operação de umas instalações existentes de caráter crítico, é importante projetar cuidadosamente o trabalho e trabalhar no projeto. Também é essencial ter uma boa empresa de conceção, empresa de integração, empresas de construção e uma equipa de comissionamento, juntamente com pessoal operacional bem treinado, para reduzir as falhas.

2. Falhas catastróficas

Um programa abrangente de manutenção e operações pode identificar e eliminar o máximo de potenciais problemas, ajudando-o a evitar falhas catastróficas. O seu programa deve incluir janelas de manutenção bem definidas, com redundância adequada integrada, de forma a que os serviços não sejam interrompidos durante a realização da manutenção. A manutenção preventiva é um fator importante a ter em consideração, o que implica a realização de uma análise exaustiva das falhas após cada incidente e a utilização dos resultados para prever e evitar problemas no futuro – tal como o NTSB faz com a sua abordagem de “lições aprendidas”. É igualmente importante ter um vasto programa de formação para o pessoal operacional e de manutenção, começando com a formação dos fabricantes ou instaladores do equipamento, mas continuando com formações regulares para se manter esse pessoal atualizado.

3. Falhas agravadas

Por vezes, múltiplos eventos concorrem para a ocorrência de uma falha, uma situação conhecida como falha agravada. A falta de atenção aos detalhes é a principal causa de falhas agravadas. Pense no que acontece se o seu centro de dados sofrer um corte de energia. O seu gerador deve receber um sinal de arranque e ativar-se imediatamente. Mas, se tiver negligenciado a verificação da bateria do gerador e os níveis de combustível e refrigerante durante meses a fio, ele pode deixá-lo ficar mal. Da mesma forma, pequenos incómodos em grandes instalações passam, por vezes, despercebidos e não causam, por si só, nenhum dano às instalações; no entanto, associados a outros problemas, podem dar origem a uma falha do sistema.

4. Falhas por erro humano

O erro humano é a principal causa de falhas em instalações de caráter crítico. Como acima referido, a formação pode ajudar a reduzir a incidência de falhas humanas, mas também são necessários métodos de procedimento (MOPs) detalhados. Os MOPs definem em pormenor o modo de realizar várias funções de manutenção, assegurando que estas são consistentemente executadas da mesma forma. Muitas vezes, no afã de colocar as instalações online, as empresas falham no desenvolvimento, documentação e implementação de MOPs. Estes procedimentos devem ser desenvolvidos cedo e testados antes de as instalações estarem totalmente operacionais. Não desenvolver de início um procedimento para transferir o sistema da UPS para derivação de manutenção pode revelar-se muito mais dispendioso do que investir tempo antecipadamente na preparação para o inevitável. Os MOPs também devem ser executados com uma abordagem de piloto/copiloto, de forma a garantir que são seguidos com rigor.

Para conhecer mais melhores práticas, consulte o White Paper 7 da Schneider Electric, Maximizing Uptime in Mission-Critical Facilities.