Como ya explicamos en un post relacionado, muchos responsables de informática explican historias de periodos de inactividad en sus salas de servidores distribuidos o en armarios de cableado remotos, provocados por acontecimientos inesperados, pero con tendencia a ser rutinarios. Al analizar esas historias, se extrae un hilo común: la falta de información conduce a un error humano, que es el que causa el periodo de inactividad.

Pensemos en estas estadísticas:

  • IDC calcula que, solo en EE. UU., hay 2,9 millones de salas de servidores y armarios de cableado.
  • Más del 70% de los fallos de suministro registrados en Data Centers se atribuyen directamente a un error humano, según el Uptime Institute.
Ahora puedes diseñar un sistema de supervisión que te proporcione la información que necesitas para evitar esos costosos periodos de inactividad. Para un sistema cuya función principal es limitar la incidencia de errores humanos en salas de servidores remotos, ten en cuenta estos cuatro componentes: videovigilancia, sensores, tomas inteligentes de rack, y software de supervisión y automatización.

Videovigilancia y sensores

Con unos sistemas escalables de supervisión y automatización se pueden recopilar, organizar y distribuir alertas y vídeos de vigilancia críticos. Al supervisar la alimentación eléctrica, la refrigeración, la parte trasera y frontal de los racks y las condiciones ambientales, estos sistemas pueden generar una notificación instantánea de los fallos, permitir una evaluación rápida de la situación y proporcionar la resolución de problemas de infraestructura críticos que pueden afectar de forma adversa a la disponibilidad del sistema de IT.

Los sistemas de videovigilancia pueden conectarse a sensores de movimientos de manera que, siempre que se detecte movimiento, se accione la cámara para enfocar la zona y enviar el vídeo al administrador correspondiente, que podrá rectificar rápidamente situaciones como que haya contratistas haciendo paquetes de servidores activos.

Por lo general, un sistema de gestión de cámara permite realizar el seguimiento del personal de las instalaciones, vendedores, personal de seguridad, guardias y otros visitantes que acuden a la sala de servidores o al armario de cableado remoto. Un administrador puede optar por entrar en el sistema de forma remota y observar las acciones de cualquier persona que esté en la sala. Algunos sistemas pueden ir equipados con altavoces, de modo que el administrador puede dar instrucciones o avisos al visitante.

Tomas inteligentes en racks

Las tomas inteligentes en racks, también conocidas como PDU montadas en rack, son bandas largas y delgadas de tomas eléctricas montadas en la parte trasera de un rack. Los dispositivos permiten a los usuarios volver a desactivar y activar la alimentación a un equipo cerrado y configurar la secuencia en la que la alimentación se enciende o se apaga en cada toma, para predeterminar qué elemento del equipo se encenderá antes para que el resto del equipo que dependa de esa unidad funcione adecuadamente.

El sistema de supervisión evita las sobrecargas midiendo el consumo real a través de tomas inteligentes en racks y ofrece a los administradores la información que necesitan para tomar decisiones sobre dónde situar nuevos equipos.

Software de supervisión y automatización

Un sistema de gestión y automatización ofrece a los administradores una abundancia de datos que contribuirá a reducir el tiempo de inactividad debido a errores humanos, e incluye:
  • Alarma y notificación cuando se superan unos umbrales, mediante correo electrónico, mensaje de texto, llamada de teléfono o cualquier método elegido por el usuario.
  • Comprobaciones de estado del equipo en cualquier elemento, desde servidores a baterías. Recuerda que el fallo de una única batería puede comportar la pérdida de la carga crítica. El coste de sustituir una o dos baterías es mínimo en comparación con sufrir un fallo que provoque la caída del servidor o el armario.
  • Análisis e informes: Los datos recopilados por un sistema de supervisión pueden convertirse en informes personalizados para que el administrador de IT los revise. Esos informes pueden alertarles de situaciones como fluctuaciones de temperatura, quién ha estado en qué rack y por cuánto tiempo, y cuánta carga tiene un SAI concreto.
  • Configuración masiva: Los administradores pueden emitir órdenes de cambios masivos para todos los dispositivos listados en el sistema central de supervisión y automatización, como el cierre conjunto de 50 puertas de rack, quizás para protegerlos de un excesivo celo por parte del personal de limpieza.
  • Control: Contar con unos datos detallados del sistema de supervisión y automatización ayuda a que los administradores dispongan de la información que necesitan para asumir el control en el momento en que surjan problemas. Por ejemplo, un sistema puede rastrear la ruta de alimentación y las relaciones y dependencias del sistema físico para ayudar a identificar el origen de un problema. Un sistema también puede ilustrar las consecuencias del fallo de un dispositivo concreto en un equipo montado en un rack para ayudar a identificar el impacto que tendrá sobre el negocio.
Tener un mayor control sobre las condiciones ambientales, más alertas y más datos históricos puede ayudar a favorecer un entorno con menos presión... y menos periodos de inactividad. Para más información, descárgate el White Paper de APC by Schneider Electric, “Cómo los sistemas de supervisión reducen los errores humanos en las salas de servidores distribuidos y los armarios de cableado remoto”.