4 typy awarii, które grożą przestojem

Maksymalna dostępność to strategia. Odgrywa olbrzymią rolę już podczas fazy planowania obiektu, a następnie staje się wyznacznikiem każdego podjętego kroku związanego z projektem, konstrukcją, rozruchem, działaniem, analizą usterek i ponownym rozruchem.

Operatorzy centrów danych mogą brać przykład z innych przedsiębiorstw działających w krytycznych warunkach, na przykład linii lotniczych. W przypadku jakiegokolwiek zdarzenia w ruchu powietrznym Narodowa Rada Bezpieczeństwa Transportu (National Transportation Safety Board — NTSB) prowadzi dochodzenie i ostatecznie publikuje dokument dot. „wniosków na przyszłość”. Chodzi o to, aby zapobiec powtórzeniu feralnego zdarzenia w przyszłości. Maksymalny czas pracy bez przestojów w centrach danych wymaga podjęcia podobnych kroków przez firmy.

NTSB wskazuje jeden lub więcej typ przyczyn awarii: awarię powstałą wskutek błędów projektowych, awarię katastrofalną, awarię powstałą w wyniku wielu czynników i awarię powstałą wskutek błędu człowieka. Przestój w newralgicznych obiektach można przypisać tym czterem typom awarii, a każdy z nich wymaga odmiennego podejścia obejmującego działania zapobiegawcze i programy wyciągania „wniosków na przyszłość”.

1. Awarie powstałe wskutek błędów projektowych

Awariom powstałym wskutek błędów projektowych można zapobiec poprzez rozsądne planowanie i współpracę z rzetelnymi dostawcami. Należy jasno określić swój cel i opracować dokument zawierający założenia projektowe, który wyraźnie określa stawiane wymagania. Bez względu na to, czy jest to nowo budowany, modernizowany, czy działający obiekt o znaczeniu krytycznym, należy zaplanować pracę i trzymać się tego planu. Aby zminimalizować ryzyko awarii, należy współpracować z rzetelnymi firmami zajmującymi się projektowaniem i integracją, niezawodnymi przedsiębiorstwami budowlanymi, fachowymi zespołami odpowiedzialnymi za eksploatację oraz świetnie przeszkolonym personelem.

2. Awarie katastrofalne

Kompleksowe programy utrzymania i eksploatacji pozwolą rozpoznać oraz wykluczyć wiele potencjalnych problemów, tym samym pomagając uniknąć awarii katastrofalnych. Programy te powinny określać czas na prowadzenie czynności utrzymania i gwarantować nadmiarowość systemu, która nie wpłynie na jego pracę. Konserwacja predykcyjna to kolejny ważny punkt. Wymaga on przeprowadzania szczegółowej analizy awarii po każdym zdarzeniu oraz użycie jej wyników do przewidywania i zapobiegania przyszłym problemom, podobnie jak robi to NTSB w przypadku „wniosków na przyszłość”. Ważne jest wdrożenie kompleksowego programu szkoleniowego dla personelu zajmującego się funkcjonowaniem i utrzymywaniem obiektów. Należy korzystać ze szkoleń prowadzonych przez producentów i instalatorów sprzętu oraz prowadzić regularne szkolenia pracowników zajmujących się funkcjonowaniem i utrzymaniem obiektów.

3. Awarie powstałe w wyniku wielu czynników

Zdarza się, że awaria to efekt splotu kilku zdarzeń — w takim wypadku jest to awaria powstała w wyniku wielu czynników. Główną przyczyną takich awarii jest niewystarczająca uwaga poświęcona szczegółom. Pomyśl, co by się stało, gdyby w Twoim centrum danych nastąpiła przerwa w dostawie energii elektrycznej? Generator powinien natychmiast się uruchomić. Ale jeśli od miesięcy zaniedbywano kontrolę akumulatora w generatorze, ilości paliwa i płynu chłodzącego, możesz się niemiło rozczarować. Niewielkie detale, o których wszyscy zapominają w olbrzymich obiektach, same nie wyrządzają szkody, ale w połączeniu z innymi problemami mogą stać się przyczyną poważnej awarii systemu.

4. Awarie powstałe wskutek błędu człowieka

Błąd człowieka to główna przyczyna awarii w newralgicznych obiektach. Jak już wspomniano powyżej, szkolenia mogą zmniejszyć liczbę zdarzeń spowodowanych błędem człowieka. To jednak nie wystarczy. Niezbędne jest ustanowienie szczegółowych metod postępowania. Metody postępowania dokładnie określają, jak powinny wyglądać czynności utrzymywania obiektów i gwarantują, że zawsze będą przeprowadzane w ten sam sposób. Zbyt często zdarza się, że chcąc jak najszybciej uruchomić dany obiekt, organizacje nie przygotowują, nie dokumentują i nie wdrażają odpowiednich metod postępowania. Procedury te należy odpowiednio wcześnie opracować i przetestować, zanim obiekt stanie się w pełni funkcjonalny. Konsekwencje spowodowane odkładaniem przygotowania procedur dotyczących przełączenia systemu UPS na obejście serwisowe mogą okazać się o wiele bardziej kosztowne niż koszt opracowania i wdrożenia procedur. Metody postępowania należy przeprowadzać we współpracy z partnerem/partnerem współzarządzającym, aby zyskać pewność, że są dokładnie przestrzegane.

Aby dowiedzieć się więcej o najlepszych praktykach, przeczytaj raport White Paper Schneider Electric nr 7 Maximizing Uptime in Mission-Critical Facilities.