Come spiegato in un post correlato, molti responsabili informatici riferiscono interruzioni delle sale server distribuite e degli armadi di cablaggio causate da eventi imprevisti ma piuttosto frequenti. Dall'analisi di questi casi emerge una minaccia comune: la mancanza di informazioni che causa errori umani che a loro volta causano interruzioni.

Si considerino le seguenti statistiche:

  • IDC stima che solo negli Stati Uniti esistono 2,9 milioni di sale server e armadi di cablaggio.
  • Secondo l'Uptime Institute, oltre il 70% dei blackout dei Data Center riferiti sono attribuibili direttamente all'errore umano.
Per ottenere i dati necessari ed evitare costose interruzioni è possibile progettare un sistema di monitoraggio. Per un sistema il cui ruolo primario è limitare l'errore umano nelle sale server remote occorre valutare quattro componenti chiave: videosorveglianza, sensori, prese rack intelligenti e software di monitoraggio e automazione.

Videosorveglianza e sensori

I sistemi di monitoraggio e automazione scalabili sono in grado di acquisire, organizzare e distribuire avvisi critici e immagini della videosorveglianza. Attraverso il monitoraggio dell'alimentazione, del raffreddamento dei pannelli anteriori e posteriori dei rack e dell'ambiente, questi sistemi sono in grado di segnalare istantaneamente i guasti per consentire una valutazione rapida della situazione e risolvere eventi critici che si verificano all'interno dell'infrastruttura e che possono compromettere la disponibilità dei sistemi IT.

Gli impianti di videosorveglianza possono essere collegati a sensori di movimento in modo tale che quando viene rilevato un movimento si attiva una videocamera che effettua una panoramica dell'area e invia il video a un amministratore autorizzato, il quale potrà intervenire rapidamente, ad esempio nel caso in cui un server acceso venga imballato senza spegnerlo.

Un sistema di gestione delle videocamere generalmente consente il tracciamento della presenza di personale, fornitori, addetti alla sicurezza, custodi e altre persone che entrano nella sala server o nell'armadio di cablaggio remoto. Un amministratore può accedere al sistema in remoto e osservare i movimenti delle persone presenti nell'ambiente. Alcuni sistemi possono essere dotati di altoparlanti che consentono all'amministratore di fornire istruzioni o avvertenze alle persone presenti nella sala.

Prese rack intelligenti

Le prese rack intelligenti, dette anche PDU da rack, sono file di prese elettriche lunghe e sottili montate nella parte posteriore interna del rack. I dispositivi consentono agli utenti di riavviare in remoto le apparecchiature bloccate e configurare la sequenza di accensione o spegnimento di ogni presa, per stabilire in anticipo quale componente dell'apparecchiatura deve essere acceso per primo, in modo tale da garantire il corretto funzionamento delle apparecchiature secondarie.

Il sistema di monitoraggio evita i sovraccarichi, dal momento che misura il consumo effettivo nelle prese rack intelligenti, fornendo agli amministratori i dati necessari per scegliere la posizione di nuove apparecchiature.

Software di monitoraggio e automazione

Un sistema di gestione e automazione fornisce agli amministratori un'enorme mole di dati utili per ridurre le interruzioni causate dall'errore umano, ad esempio:
  • Allarmi e notifiche al raggiungimento delle soglie tramite email, messaggi di testo, chiamate telefoniche o altri metodi a scelta dell'utente.
  • Verifiche dello stato delle apparecchiature, dai server alle batterie. Occorre tenere presente che il guasto di una sola batteria può causare la perdita dei carichi critici. I costi per la sostituzione di una o due batterie sono minimi rispetto a quelli causati da un guasto che danneggia gravemente l'armadio o il server.
  • Rendiconti analitici: i dati acquisiti da un sistema di monitoraggio possono essere convertiti in rapporti personalizzati per l'amministratore IT. Tali rapporti possono avvisare gli amministratori in particolari situazioni, ad esempio le oscillazioni della temperatura che si verificano in un determinato rack per un determinato periodo di tempo e il carico che grava su un particolare UPS.
  • Configurazione di massa: Gli amministratori possono effettuare modifiche in massa a tutti i dispositivi inseriti nel sistema di monitoraggio e automazione centralizzato, ad esempio bloccando gli sportelli di 50 rack alla volta per proteggerli dal personale che effettua le pulizie con eccessivo zelo.
  • Controllo: I dati dettagliati del sistema di monitoraggio e automazione forniscono agli amministratori le informazioni necessarie per gestire correttamente i problemi quando si verificano. Un sistema, ad esempio, può rappresentare su una mappa il percorso dell'alimentazione, con relazioni e dipendenze del sistema fisico, in modo da identificare facilmente l'origine di un problema. Un sistema, inoltre, può illustrare le conseguenze del guasto di un determinato dispositivo in un rack per semplificare la quantificazione dell'impatto sull'operatività critica.
Un maggiore controllo dell'ambiente, un maggior numero di avvisi e una maggiore quantità di dati cronologici possono ridurre efficacemente le sollecitazioni e i tempi di fermo. Per ulteriori informazioni, scaricare il white paper di APC by Schneider Electric “Ridurre gli errori umani nelle sale server distribuite e negli armadi di cablaggio remoti con una soluzione di monitoraggio”.