Quatro tipos de problemas que colocam em risco a otimização do tempo de operação, e como evitá-los

A otimização do tempo de operação é uma filosofia. Começa com o planejamento da infraestrutura e sustenta-se em cada passo do projeto, construção, comissionamento, operações, análise de falhas e recomissionamento.

Os gerentes de data centers podem seguir o exemplo de outras indústrias que funcionam em condições críticas, como as companhias aéreas. A cada vez que ocorre qualquer tipo de incidente no tráfego aéreo, o Comitê de Segurança do Transporte Nacional (NTSB) dos EUA investiga e, posteriormente, emite um documento com as "lições aprendidas". A ideia é tentar prevenir a repetição do incidente no futuro. Garantir a otimização do tempo de operação nos data centers de missão crítica exige que as empresas adotem uma abordagem similar.

O NTSB afirma que os acidentes ocorrem devido a um ou mais tipos de falhas: falhas de projeto, falhas catastróficas, falhas compostas e falhas por erro humano. Os períodos não produtivos em infraestruturas de missão crítica também podem ser atribuídos a esses quatro tipos de falhas e, em cada caso, é preciso uma abordagem de prevenção diferente e programas de lições aprendidas.

1. Falhas de projeto

Falhas de projeto podem ser eliminadas mediante um planejamento adequado e trabalhando com fabricantes competentes. Para começar, é necessário pensar no objetivo e elaborar um documento de intenção de projeto, no qual sejam claramente detalhados os requisitos que devem ser atendidos. Quer você empreenda uma nova construção ou uma atualização, quer opere uma infraestrutura de missão crítica existente, é importante planejar o trabalho e trabalhar cuidadosamente o planejamento. Também é crucial recorrer a empresas de projeto, empresas de integração e empresas de construção idôneas, além de uma equipe de comissionamento eficiente e um pessoal de operações bem treinado para mitigar as falhas.

2. Falhas catastróficas

Os programas de manutenção e operações abrangentes podem identificar e eliminar numerosos problemas potenciais, ajudando você a evitar falhas catastróficas. Seu programa deveria incluir períodos bem definidos entre as diferentes tarefas de manutenção, com níveis apropriados de redundância para os serviços não serem interrompidos enquanto essas tarefas são realizadas. A manutenção preditiva é outra consideração importante; consiste na realização de uma análise pormenorizada de falhas após cada incidente e na aplicação dos resultados para predizer e prevenir problemas futuros, como faz o NTSB com sua abordagem baseada em lições aprendidas. Também é importante implementar um programa de treinamento completo para o pessoal de operações e manutenção, começando pelo treinamento oferecido pelos fabricantes ou instaladores de equipamentos, para depois oferecer formação contínua a fim de mantê-lo atualizado.

3. Falhas compostas

Em certos momentos, ocorrem diversos acontecimentos que levam às denominadas falhas compostas. A falta de atenção nos detalhes é uma das causas principais deste tipo de falhas. Vamos pensar no que acontece quando ocorre uma falha no fornecimento de energia para data centers. O gerador deveria receber um sinal de partida e entrar logo em operação. Mas se você esqueceu de verificar os níveis de bateria, combustível e refrigerante do gerador por vários meses, esse equipamento poderia não funcionar. De maneira similar, em grandes instalações, às vezes certas irregularidades menores, que por si próprias não afetam a instalação, são negligenciadas; mas, combinadas com outros problemas, essas irregularidades poderiam provocar a falha do sistema.

4. Falhas causadas por erro humano

O erro humano é uma das principais causas de falhas em infraestruturas de missão crítica. Como mencionamos acima, o treinamento pode ajudar a reduzir a incidência do erro humano, mas também é preciso implementar uma metodologia de procedimento (MOP) detalhada. A metodologia de procedimento define passo a passo como realizar diferentes funções de manutenção, de modo a garantir que sempre sejam realizadas do mesmo modo. Com muita frequência, na pressa por colocar a instalação em funcionamento, as empresas omitem o desenvolvimento, documentação e implementação da metodologia de procedimento. Esses procedimentos deveriam ser desenvolvidos nas fases iniciais do projeto e testados antes de a infraestrutura ser totalmente operacional. Esperar pelo desenvolvimento de um procedimento para transferir o nobreak ao modo bypass para manutenção pode ser muito mais oneroso do que investir tempo no início do projeto a fim de que todos estejam preparados para o inevitável. Além disso, a metodologia de procedimento deveria ser realizada com uma abordagem de piloto e copiloto, para garantir que o procedimento indicado seja aplicado.

Para conhecer outras melhores práticas, consulte o white paper Nº 7 da Schneider Electric, "Otimização do tempo produtivo em infraestruturas de missão crítica".