Como explicamos en un posteo relacionado con este, muchos administradores informáticos cuentan experiencias de tiempos de inactividad en sus salas de servidores distribuidas y salas de cableado remotas causados por eventos inesperados aunque bastante comunes. Al analizar esos relatos, surge una trama común a todos: la falta de información conduce al error humano, que da lugar a tiempos de inactividad.

Veamos algunas estadísticas:

  • IDC estima que solo en los EE.UU. hay 2,9 millones de salas de servidores y de cableado.
  • Más del 70% de los cortes de suministro en centros de datos sobre los que se informó se atribuyen directamente al error humano, según el Uptime Institute.
Es posible diseñar un sistema de monitoreo para obtener la información que se necesita y evitar los costosos tiempos de inactividad. Para diseñar un sistema cuya función principal sea reducir la cantidad de errores humanos en salas de servidores remotas, deben tenerse en cuenta cuatro componentes clave: videovigilancia, sensores, tomas de salida inteligentes en los racks, y software de monitoreo y automatización.

Videovigilancia y sensores

Los sistemas de monitoreo y automatización escalables pueden recopilar, organizar y distribuir alertas y videos de vigilancia críticos. Al monitorear la energía, el enfriamiento, las partes posteriores y frontales de los racks, y el entorno, esos sistemas pueden generar notificaciones inmediatas de fallas, permitir la evaluación rápida de la situación y ocuparse de la resolución de eventos relativos a la infraestructura crítica que tengan un efecto negativo en la disponibilidad de los sistemas informáticos.

Los sistemas de videovigilancia pueden conectarse a sensores de movimiento para que cada vez que se detecte algún movimiento en el entorno la cámara recorra el área y envíe el video a un administrador autorizado, quien rápidamente podrá ocuparse de situaciones tales como la de un contratista que se dispone a embalar un servidor sin desconectarlo antes.



Los sistemas de gestión de cámaras suelen permitir el seguimiento del personal de infraestructura, fabricantes, personal de seguridad, guardias u otras personas que ingresan a la sala de servidores o de cableado remota. Un administrador podría decidir iniciar sesión en el sistema remotamente y observar las acciones de quienes estén en la sala. Algunos sistemas admiten la instalación de parlantes para que el administrador pueda dar instrucciones o hacer advertencias al visitante.

Tomas de salidas inteligentes en racks

Las tomas de salida inteligentes en los racks, también conocidas como "unidades PDU para rack”, son largos bloques de tomacorrientes montados en la cara interna de la parte posterior de un rack. Esos dispositivos permiten que los usuarios apaguen y enciendan en forma remota los equipos que no responden, y configuren la secuencia de encendido o apagado de las diferentes tomas; también ofrecen la posibilidad de predeterminar qué equipo se enciende primero para que otros equipos que dependan de esa unidad funcionen correctamente.

El sistema de monitoreo evita las sobrecargas mediante la medición del consumo real a través de las tomas inteligentes en los racks, y les brinda a los administradores la información que necesitan para decidir dónde ubicar nuevos equipos.

Software de monitoreo y automatización

Los sistemas de gestión y automatización proveen a los administradores abundante información que ayuda a reducir los tiempos de inactividad causados por errores humanos, que incluye los siguientes ítems:

  • Envío de alarmas y notificaciones cuando se superan los umbrales establecidos, por correo electrónico, mensaje de texto, teléfono o la vía que elija el usuario.
  • Controles del estado de todos los equipos y componentes, desde servidores hasta baterías. Vale recordar que la falla de una sola batería puede provocar la desconexión de la carga crítica. El costo de reemplazar una o dos baterías es mínimo en comparación con el asociado a una falla que hace que una sala o servidor deje de funcionar.
  • Informes de análisis: Los datos recopilados por el sistema de monitoreo pueden convertirse en informes personalizados que podrá revisar el administrador informático. Esa documentación puede informar a los administradores, por ejemplo, sobre fluctuaciones de temperatura, y suministrar los nombres de las personas que estuvieron trabajando con cada rack y la duración de las tareas, así como datos sobre el volumen de carga conectada a una UPS determinada.
  • Configuración masiva: Los administradores pueden emitir órdenes de cambios masivos para todos los dispositivos incluidos en el sistema de monitoreo y automatización, como trabar 50 puertas de racks al mismo tiempo, tal vez para protegerlos de personal de limpieza excesivamente meticuloso
  • Control: Los datos detallados que brindan los sistemas de monitoreo y automatización ayudan a que los administradores cuenten con la información que necesitan para tomar el mando cuando surgen problemas. Por ejemplo, un sistema puede diagramar las relaciones y dependencias entre el sistema físico y el circuito de energía para ayudar a identificar el origen de un problema. También puede ilustrar el efecto de la falla de un dispositivo particular en los equipos montados en rack, lo que ayuda a identificar el impacto sobre las aplicaciones comerciales clave.

El aumento del control del entorno, la cantidad de alertas y el volumen de datos históricos puede ayudar a promover un entorno menos sobreexigido y con menos tiempos de inactividad. Obtenga más información descargando el Informe técnico de APC by Schneider Electric “Cómo los sistemas de monitoreo disminuyen el error humano en salas de servidores distribuidas y salas de cableado remotas”.