Cuatro tipos de fallos que ponen en riesgo el máximo tiempo de actividad y cómo evitarlos

El máximo tiempo de actividad es toda una filosofía. Empieza por la planificación de tu centro y sigue en un proceso continuo por todos los pasos de diseño, construcción, puesta en funcionamiento, operaciones, análisis de fallos y nueva puesta en funcionamiento.

Los operadores de Data Centers pueden mirar el ejemplo de otros sectores que trabajan en condiciones críticas, como las aerolíneas. Siempre que se produce alguna clase de incidente de tráfico aéreo, el National Transportation Safety Board (NTSB) investiga el caso y emite al final un documento de “lecciones aprendidas” del incidente. La idea es intentar evitar que dicho incidente se repita en un futuro. Garantizar el máximo tiempo de actividad en Data Centers con datos críticos exige que las empresas adopten un método similar.

El NTSB afirma que los accidentes ocurren debido a uno o más tipos de fallos: fallos de diseño, fallos catastróficos, fallos combinados y fallos por errores humanos. Los periodos de inactividad en instalaciones críticas también pueden atribuirse a estos cuatro tipos de fallos y cada uno exige un enfoque distinto sobre prevención y programas de “enseñanzas extraídas”.

1. Fallos de diseño

Los fallos de diseño pueden eliminarse mediante una planificación adecuada y con la participación de unos fabricantes competentes. Empieza pensando en el final y elabora un documento de intenciones de diseño que describa exactamente tus requisitos, con todo detalle. Tanto si se trata de una nueva construcción, de una actualización o del funcionamiento de una instalación crítica ya existente, es importante planear detenidamente el trabajo y trabajar bien en el plan. También es crucial contar con buenas empresas de diseño, integración y construcción y con un equipo de puesta en funcionamiento, junto con un personal operativo con la formación adecuada para reducir los fallos.

2. Fallos catastróficos

Contar con un mantenimiento y unos programas de operaciones integrales puede contribuir a identificar y eliminar muchos de los posibles problemas, ayudándote a evitar fallos catastróficos. Tu programa deberá incluir ventanas de mantenimiento bien definidas, con la debida redundancia integrada para que no se interrumpan los servicios mientras se realiza el mantenimiento. El mantenimiento predictivo es otra consideración a tener en cuenta: conlleva la realización de un exhaustivo análisis de fallos después de cada incidente y el uso de los resultados para predecir y prevenir problemas futuros (tal como hace el NTSB con su enfoque de “enseñanzas extraídas”). También es importante contar con un programa de formación integral para el personal operativo y de mantenimiento, empezando por la formación impartida por los fabricantes o instaladores del equipo, pero continuando por una formación periódica para mantener al día a ese personal operativo y de mantenimiento.

3. Fallos combinados

A veces concurren múltiples acontecimientos que generan un fallo, en lo que se conoce como un fallo combinado. La falta de atención a los detalles es una de las principales causas de los fallos combinados. Piensa en lo que sucedería si tu Data Center sufriera un corte de suministro eléctrico. Tu generador debería recibir una señal de inicio y encenderse inmediatamente. Pero si te has olvidado de comprobar la batería del generador, el combustible y los niveles de refrigerante durante meses, puede que te falle. Del mismo modo, en las instalaciones grandes a menudo hay pequeños elementos molestos que pasan desapercibidos y que, por sí mismos, no provocan ningún efecto negativo en la instalación, pero que, en combinación con otros, pueden generar un fallo de sistema.

4. Fallos debidos a errores humanos

Los errores humanos son la causa principal de los fallos en instalaciones críticas. Como se ha dicho antes, la formación puede contribuir a reducir la incidencia de fallos humanos, pero otro de los requisitos es contar con métodos de procedimiento muy detallados (MOP). Los MOP definen al detalle cómo realizar las distintas funciones de mantenimiento para garantizar que se llevan a cabo siempre del mismo modo. Sucede muy a menudo que, con las prisas de conectar la instalación on-line, las empresas se olvidan de desarrollar, documentar e implementar los pertinentes MOP. Estos procedimientos deberían desarrollarse en fases iniciales y comprobarse antes de que la instalación entre plenamente en funcionamiento. Esperar a desarrollar un procedimiento para pasar del sistema SAI a un bypass de mantenimiento podría resultar mucho más caro que invertir de antemano el tiempo necesario para prepararse para lo inevitable. Los MOP deberán también ejecutarse con un enfoque de piloto y copiloto, para asegurarse de que el procedimiento se sigue al pie de la letra.

Para encontrar más buenas prácticas, consulta el White Paper 7 de Schneider Electric, “Cómo maximizar el tiempo de actividad en instalaciones críticas”.