Cuatro tipos de problemas que ponen en riesgo la optimización del tiempo productivo, y cómo evitarlos

La optimización del tiempo productivo es una filosofía. Comienza con la planificación de la infraestructura y se sostiene en cada paso del diseño, la construcción, la puesta en marcha, las operaciones, el análisis de fallas y las nuevas puestas en marcha.

Los operadores de centros de datos pueden seguir el ejemplo de otras industrias que funcionan en condiciones críticas, como las aerolíneas. Cada vez que se produce cualquier tipo de incidente en el tráfico aéreo, el Comité de Seguridad del Transporte Nacional (NTSB) de los EE.UU. investiga y posteriormente emite un documento con las "lecciones aprendidas". La idea es intentar prevenir la repetición del incidente en el futuro. Garantizar la optimización del tiempo productivo en los centros de datos de misión crítica exige que las empresas adopten un enfoque similar.

El NTBS afirma que los accidentes se producen debido a uno o más tipos de fallas: fallas de diseño, fallas catastróficas, fallas compuestas y fallas debidas al error humano. Los tiempos de inactividad en infraestructuras de misión crítica también pueden atribuirse a esos cuatro tipos de fallas, y en cada caso se necesita un enfoque de prevención diferente y programas de lecciones aprendidas.

1. Fallas de diseño

Las fallas de diseño pueden eliminarse mediante una planificación adecuada y trabajando con fabricantes competentes. Debe comenzarse por el objetivo y elaborar un documento de intención de diseño en el que se detallen claramente los requisitos que deben cumplirse. Ya sea que emprenda una nueva construcción o una actualización, o que opere una infraestructura de misión crítica existente, es importante planificar el trabajo y trabajar la planificación cuidadosamente. También es clave recurrir a compañías de diseño, compañías de integración y empresas de construcción que trabajen bien, además de contar con un equipo de puesta en marcha eficiente y personal de operaciones bien capacitado para mitigar las fallas.

2. Fallas catastróficas

Los programas de mantenimiento y operaciones integrales pueden identificar y eliminar numerosos problemas potenciales, lo que lo ayudará a evitar fallas catastróficas. Su programa debería incluir períodos bien definidos entre las distintas tareas de mantenimiento, con niveles apropiados de redundancia para que los servicios no se vean interrumpidos mientras se llevan a cabo esas tareas. El mantenimiento predictivo es otra consideración importante; consiste en llevar a cabo un análisis exhaustivo de fallas tras cada incidente y emplear los resultados para predecir y prevenir problemas futuros, como hace el NTSN con su enfoque basado en lecciones aprendidas. También es importante implementar un programa de capacitación integral para el personal de operaciones y mantenimiento, empezando por la capacitación que brindan los fabricantes o instaladores de equipos, para luego ofrecerle formación continua a fin de mantenerlo actualizado.

3. Fallas compuestas

En ciertos momentos, se combinan diversos acontecimientos que dan lugar a las denominadas fallas compuestas. La falta de atención a los detalles es una de las causas principales de este tipo de fallas. Pensemos en lo que ocurre cuando se corta el suministro en el centro de datos. El generador debería recibir una señal de encendido y ponerse en marcha de inmediato. Pero si omitimos verificar los niveles de batería, combustible y refrigerante del generador por varios meses, ese equipo podría no funcionar. De manera similar, en grandes instalaciones a veces pasan inadvertidas ciertas irregularidades menores, que por sí solas no generan importantes perjuicios; no obstante, si esas irregularidades se combinan con otros problemas, podrían ocasionar la falla del sistema.

4. Fallas a causa del error humano

El error humano es una de las principales causas de fallas en infraestructuras de misión crítica. Como se mencionó arriba, la capacitación puede ayudar a reducir la incidencia del error humano, pero también se necesita implementar una metodología de procedimiento (MOP) detallada. La metodología de procedimiento define punto a punto cómo llevar a cabo diferentes funciones de mantenimiento, de modo de garantizar que siempre se las realice del mismo modo. Con demasiada frecuencia, en el apuro por poner en marcha la instalación, las organizaciones omiten desarrollar, documentar e implementar la metodología de procedimiento. Esos procedimientos deberían desarrollarse en las etapas iniciales del diseño y ponerse a prueba antes de que la infraestructura se encuentre totalmente operativa. Esperar a que se desarrolle un procedimiento para pasar el sistema UPS al modo de bypass para mantenimiento puede ser mucho más costoso que invertir tiempo al principio del proceso de diseño a fin de que todos estén preparados para lo inevitable. Además, la metodología de procedimiento debería ejecutarse aplicando un enfoque de piloto y copiloto, para garantizar que se siga el procedimiento indicado.

Para conocer otras prácticas recomendadas, consulte el Informe técnico Nº 7 de Schneider Electric, "Optimización del tiempo productivo en infraestructuras de misión crítica".