Quattro tipi di guasti che impattano maggiormente sulla continuità operativa e i metodi per evitarli

La continuità operativa è una vera e propria filosofia. Comincia con la pianificazione della struttura e rimane un processo continuo in tutte le fasi del ciclo di vita: progettazione, realizzazione, messa in servizio, utilizzo, analisi dei guasti e ripresa dell'attività.

Gli operatori dei Data Center possono prendere spunto da altri settori operanti in condizioni mission-critical, ad esempio le compagnie aeree. Ogni volta che si verifica un incidente nel traffico aereo, il National Transportation Safety Board (NTSB) effettua opportune indagini e infine emette un documento sulle “lezioni apprese”. L'idea è quella di prevenire in futuro un nuovo incidente dello stesso tipo. La massima continuità operativa nei Data Center mission-critical impone alle aziende un approccio simile.

Il NTSB sostiene che gli incidenti si verificano a causa di uno o più problemi: errori progettuali, guasti catastrofici, cedimenti simultanei ed errore umano. Anche i tempi di fermo nelle strutture mission-critical possono essere attribuiti a questi quattro tipi di problemi, ognuno dei quali richiede un approccio differente alla prevenzione e appositi programmi relativi alle “lezioni apprese”.

1. Errori di progettazione

Gli errori di progettazione possono essere eliminati con una corretta pianificazione e con l'ausilio di fornitori competenti. È opportuno cominciare immaginando il risultato finale e procedere con un documento di intenti progettuali che specifichi chiaramente a uno a uno i requisiti dettagliati. Che si tratti di una nuova realizzazione, di un aggiornamento o della gestione di un'infrastruttura mission-critical già in opera, è importante pianificare attentamente il lavoro e attenersi rigidamente ai piani. È indispensabile rivolgersi a professionisti competenti e qualificati: progettisti, integratori, costruttori e collaudatori, affidandosi a risorse umane ben addestrate per ridurre gli incidenti.

2. Guasti catastrofici

Implementando programmi dettagliati per l'uso e la manutenzione, è possibile identificare ed eliminare innumerevoli problemi ed evitare potenziali guasti catastrofici. Il programma deve includere intervalli di manutenzione ben definiti e un'adeguata ridondanza per evitare l'interruzione dei servizi durante le operazioni di manutenzione. La manutenzione preventiva è un altro fattore importante che implica un'analisi dei guasti approfondita dopo ogni incidente e l'uso dei risultati per prevedere problemi futuri, prendendo spunto dalle “lezioni apprese” del NTSB. È importante anche predisporre un programma di formazione completa del personale addetto all'uso e alla manutenzione, a partire dall'addestramento fornito dai produttori di apparecchiature o dagli installatori e proseguendo con iniziative di formazione regolari per garantire l'aggiornamento del personale.

3. Cedimenti simultanei

A volte un evento è causato da cedimenti simultanei. La causa di tali cedimenti simultanei è la disattenzione ai dettagli. Pensate a cosa succederebbe nel vostro Data Center in caso di blackout. Il generatore dovrebbe ricevere il segnale di avvio e accendersi immediatamente. Se la batteria, il carburante e il refrigerante del generatore non sono stati controllati da molto tempo, l'attività si interrompe. Analogamente, nelle grandi strutture talvolta si ignorano piccoli elementi di disturbo che di per sé non hanno effetti negativi ma che assieme ad altri problemi possono provocare guasti del sistema.

4. Errore umano

Nelle infrastrutture mission-critical, l'errore umano rappresenta la causa principale dei guasti. Come detto in precedenza, anche se la formazione può essere utile per ridurre l'incidenza di errori umani, occorrono anche metodi procedurali dettagliati, i cosiddetti “protocolli operativi di manutenzione”. Tali protocolli definiscono dettagliatamente la modalità di esecuzione delle varie funzioni di manutenzione, garantendo che vengano svolte sempre nello stesso modo. Troppo spesso, nella fretta di ripristinare le attività della struttura, lo sviluppo, la documentazione e l'applicazione dei protocolli operativi di manutenzione vengono trascurati. Queste procedure devono essere sviluppate in anticipo e collaudate prima della messa in servizio della struttura. Lo sviluppo tardivo di una procedura di trasferimento dell'UPS in modalità bypass manutenzione potrebbe rivelarsi più costoso del tempo speso in anticipo per prepararsi all'inevitabile. I protocolli operativi di manutenzione, inoltre, devono essere applicati con un approccio pilota-copilota per accertarsi che la procedura venga rispettata pedissequamente.

Per ulteriori informazioni sui migliori standard operativi, consultare il white paper n. 7 di Schneider Electric, Ottimizzazione della continuità operativa nelle infrastrutture mission-critical.