4 hiba, amely veszélyezteti a maximális rendelkezésre állást – és a megoldások

A maximális üzemidő nem más, mint filozófia. Először a létesítmény tervezésekor merül fel, majd később – a kialakítás, a kiépítés, az üzembe helyezés, a működés, a hibaelemzés és az ismételt üzembe helyezés során – is folyamatosan szem előtt tartjuk.

Az adatközpontok vezetőinek érdemes más iparágakat is tanulmányozniuk, ahol a körülmények döntő fontosságúak a tevékenység végzése szempontjából. Ilyenek például a légitársaságok. Az Egyesült Államok Nemzeti Szállítási Biztonsági Hivatala (NTSB) minden egyes légiforgalmi esemény után kivizsgálja az esetet, és végül összeállít egy dokumentumot a levont tanulságokról. A cél az, hogy a jövőben elkerüljék a hasonló incidenseket. Ha maximális üzemidőt kívánunk elérni a tevékenység szempontjából döntő fontosságú adatközpontokban, hasonló megközelítést kell alkalmaznunk.

Az említett biztonsági hivatal tapasztalatai szerint a baleseteket okozó hibák több csoportba sorolhatók: tervezési hiba, végzetes hiba, összetett hiba és emberi tévedés okozta hiba. A tevékenység szempontjából döntő fontosságú létesítmények leállását okozó hibák is e négy csoport valamelyikébe sorolhatók. Az egyes típusoknál más és más megközelítést kell alkalmazni a megelőzéskor és a tanulságok levonásakor.

1. Tervezési hibák

A tervezési hibák megfelelő tervezéssel és hozzáértő gyártók felkérésével kerülhetők el. Kezdettől fogva legyünk tisztában a kívánt végeredménnyel, és tervezéskor készítsünk olyan dokumentumot, amelyben egyértelműen és részletesen megfogalmazzuk az igényeket. Legyen szó új létesítményről vagy már meglévő, a tevékenység szempontjából döntő fontosságú rendszer frissítéséről vagy működtetéséről, mindig körültekintően meg kell tervezni a munkát, és követni kell a tervet. Emellett fontos, hogy a tervezési, integrációs, építési és üzembe helyezési feladatokat hozzáértő vállalatokra, munkatársakra bízzuk, illetve a hibák számának csökkentése érdekében megfelelően képzett üzemeltetőket alkalmazzunk.

2. Végzetes hibák

Az átfogó karbantartási és működési programokkal számos lehetséges hiba azonosítható és elhárítható, így elkerülhetők a végzetes hibák. A programban pontosan meg kell határozni a karbantartási gyakoriságot és a beépített redundanciát, így a karbantartási műveletek alatt nem kell leállítani a szolgáltatásokat. A megelőző karbantartásra is megfelelő hangsúlyt kell fektetni. Ennek keretében minden incidens után átfogó hibaelemzés szükséges, melynek eredményeit felhasználhatjuk a jövőbeni problémák előrejelzéséhez és megelőzéséhez – hasonlóan ahhoz, ahogy az amerikai biztonsági hivatal a balesetek után levonja a tanulságokat. Az üzemeltető és karbantartó személyzetnek átfogó képzési programot kell biztosítani. Ennek része a berendezések gyártói és telepítői által nyújtott képzés, majd később a rendszeres továbbképzés, mellyel az üzemeltetők és a karbantartók tudása naprakészen tartható.

3. Összetett hibák

Néha több esemény áll a hiba hátterében, ilyenkor összetett hibáról beszélünk. Az összetett hibák oka legtöbbször a figyelem hiánya. Gondolja végig, mi történik az adatközpontban áramkimaradáskor! A generátor parancsot kap az indításra, és azonnal bekapcsol. De ha hónapok óta nem ellenőrizte a generátor akkumulátorát, az üzemanyag és a hűtőfolyadék szintjét, előfordulhat, hogy a berendezés nem indul. Ehhez hasonlóan a nagy rendszerben gyakran észrevétlenek maradnak az apró összetevők, amelyek, bár önmagukban nem okoznak gondot, egyéb hibákkal kombinálva már a rendszer meghibásodásához vezethetnek.

4. Emberi tévedés okozta hibák

A tevékenység szempontjából döntő fontosságú létesítményekben előforduló hibák okai között az első helyen áll az emberi tévedés. Ahogyan említettük, képzésekkel csökkenthető az emberi hiba okozta incidensek száma, de hasonlóan fontos a részletes eljárási módszerek alkalmazása. Az eljárási módszerek részletesen meghatározzák, hogyan kell végrehajtani a különböző karbantartási lépéseket, így azok mindig ugyanúgy végezhetők el. Sajnos elég gyakori, hogy a vállalatok sietve helyezik üzembe a rendszert, ezért elmarad az eljárási módszerek kidolgozása, dokumentálása és megvalósítása. Pedig az ilyen eljárásokat a folyamat elején ki kell dolgozni, és a rendszer élesítése előtt tesztelni kell. Ha várunk a folyamat kialakításával addig, amíg a UPS-rendszer karbantartást igényel, az sokkal nagyobb költségeket igényelhet – érdemes tehát előre időt áldozni erre a feladatra, és felkészülni az elkerülhetetlen eseményekre. Az eljárási módszereket irányított vagy részben irányított folyamat keretében kell megvalósítani, mivel csak így biztosítható a maradéktalan végrehajtásuk.

Még több legjobb gyakorlatot mutatunk be a Schneider Electric 7. sz. tanulmányában („Maximális üzemidő a tevékenység szempontjából döntő fontosságú létesítményekben”).