Maximal tillgänglighet är en filosofi. Det börjar med planeringen av anläggningen och förblir en ständigt pågående process genom varje steg av konstruktion, byggnation, idrifttagning, drift, haverianalys och återinsättning i drift.
Datacenteroperatörer kan lära sig från andra branscher som verkar under verksamhetskritiska förhållanden, som flygbolag. När det inträffar någon form av flygtrafiktillbud undersöks det av National Transportation Safety Board (haverikommissionen) som slutligen utfärdar en redogörelse över vunna insikter. Tanken är att försöka förhindra att händelsen upprepas i framtiden. Det krävs att företag intar en liknande hållning för att garantera maximal tillgänglighet i verksamhetskritiska datacenter.
Enligt haverikommissionen inträffar olyckor på grund av en eller flera feltyper: konstruktionsfel, totalhaveri, kombinationsfel och mänskliga fel. Driftstopp på verksamhetskritiska anläggningar kan även de bero på dessa fyra feltyper och var och en av dem kräver olika strategier för förebyggande och utnyttjande av vunna insikter.
1. Konstruktionsfel
Konstruktionsfel kan undvikas genom god planering och genom att samarbeta med duktiga leverantörer. Börja med syftet i åtanke och ta fram ett dokument över konstruktionens syfte som tydligt och i detalj uttrycker dina krav. Oavsett om det gäller en ny konstruktion, ombyggnad eller användning av en befintlig affärskritisk anläggning, är det viktigt att noggrant planera arbetet och att arbeta efter planen. Det är också viktigt att ha ett bra konstruktionsföretag, integrationsföretag, byggföretag och drifttagningsgrupp, samt välutbildad driftspersonal, för att minska felen.
2. Totalhaveri
Ett omfattande underhålls- och driftsprogram kan identifiera och eliminera många eventuella problem och hjälper dig att undvika totalhaveri. Programmet ska omfatta väl avgränsade underhållstider med tillräcklig inbyggd redundans, så att tjänster inte avbryts vid underhåll. Förebyggande underhåll är en annan viktig faktor, vilket innebär att en grundlig haverianalys genomförs efter varje incident och att resultaten används för att förutsäga och förhindra framtida problem – precis som haverikommissionen gör med sina vunna insikter. Det är också viktigt att ha ett omfattande utbildningsprogram för drifts- och underhållspersonalen, där utbildning ges av utrustningstillverkare eller -installatörer och fortsätter med fortlöpande utbildning, så att drifts- och underhållspersonalen håller sig à jour med utvecklingen.
3. Kombinationsfel
Ibland inträffar flera händelser som orsakar ett fel, en situation som kallas kombinationsfel. Den främsta orsaken till kombinationsfel är slarv. Fundera över vad som händer om datacentret drabbas av ett strömavbrott. Generatorn får en startsignal och aktiveras på en gång. Men om du under flera månader har glömt att kontrollera generatorns batteri-, bränsle- och kylvätskenivå, kan den svika dig. På samma sätt kan små problem i en stor anläggning som ibland lämnas obemärkta och som i sig är oskadliga för anläggningen, orsaka ett systemfel tillsammans med andra problem.
4. Mänskliga fel
Mänskliga fel är den vanligaste orsaken till brister i verksamhetskritiska anläggningar. Som påpekats ovan kan utbildning bidra till att minska förekomsten av mänskliga fel, men ett annat krav är detaljerade rutinmetoder. Rutinmetoder anger i detalj hur man utför olika underhållsfunktioner så att de utförs konsekvent varje gång. I brådskan att få igång anläggningen misslyckas organisationerna alltför ofta med att ta fram, dokumentera och använda rutinmetoder. Dessa rutiner ska tas fram tidigt och testas innan anläggningen är fullt operativ. Det kan visa sig vara mycket dyrare att vänta med att ta fram en rutin för att överföra UPS-systemet till underhållsläge än att investera tid i förskott och förbereda sig för det oundvikliga. Rutinmetoder ska också utföras med en pilot-och andrepilotsstrategi så att rutinen följs.
Läs Schneider Electrics white paper 7, Maximizing Uptime in Mission-Critical Facilities, om du vill veta mer om de bästa metoderna.