Vier Arten von Ausfällen, die die maximale Betriebszeit bedrohen – und wie Sie diese vermeiden

Eine maximale Betriebszeit erfordert eine sorgfältige Überlegung. Diese beginnt bei der Planung Ihrer Anlage und setzt sich über jeden Schritt des Designs, der Konstruktion, der Inbetriebnahme, des Betriebs, der Fehleranalyse und der Wiederinbetriebnahme fort.

Datacenter-Betreiber können sich eine Scheibe von anderen Branchen abschneiden, die unter geschäftskritischen Bedingungen agieren, wie beispielsweise Fluggesellschaften. Bei einem Vorfall im Luftverkehrsraum erfolgt immer eine Untersuchung durch das National Transportation Safety Board (NTSB). Anschließend wird ein Dokument mit bei dem Vorfall gesammelten Erkenntnissen ausgestellt. So soll vermieden werden, dass dieser Vorfall sich in der Zukunft wiederholt. Um die maximale Betriebszeit in einem geschäftskritischen Datacenter zu erreichen, müssen Unternehmen einen ähnlichen Ansatz verfolgen.

Laut dem NTSB treten Unfälle aufgrund von Versagen in einem oder mehreren Bereichen auf: Konstruktionsversagen, katastrophales Versagen, gemeinsames Versagen und menschliches Versagen. Ausfälle in geschäftskritischen Einrichtungen können ebenfalls diesen vier Arten von Versagen zugeschrieben werden. Dabei erfordert jeder einen anderen Ansatz zur Vermeidung und Erfassung der gewonnenen Erkenntnisse.

1. Designfehler

Designfehler können durch eine angemessene Planung und Zusammenarbeit mit kompetenten Anbietern vermieden werden. Behalten Sie das gewünschte Ergebnis im Auge und entwickeln Sie dann ein Dokument mit dem Designvorhaben, das Ihre Anforderungen detailliert aufführt. Ob es sich um eine neue Konstruktion, ein Upgrade oder den Betrieb einer geschäftskritischen Anlage handelt – hier gilt: Planen Sie die Nutzung und nutzen Sie die Planung. Zudem benötigen Sie zuverlässige Anbieter für den Entwurf, die Integration, die Konstruktion und die Bereitstellung sowie ein gut geschultes Betriebspersonal, um die Fehlergefahr zu verringern.

2. Katastrophales Versagen

Ein umfassendes Wartungs- und Betriebsprogramm kann viele potenzielle Probleme erkennen und beseitigen, um katastrophales Versagen zu vermeiden. Ihr Programm sollte über klar definierte Wartungszeiträume mit einer angemessenen integrierten Redundanz verfügen, damit die Versorgung während der Wartung nicht unterbrochen wird. Eine weitere wichtige Überlegung ist die vorbeugende Wartung, bei der nach jedem Vorfall eine gründliche Fehleranalyse durchgeführt wird. Die Ergebnisse werden dann verwendet, um zukünftige Probleme vorherzusehen und zu vermeiden, genau wie beim Ansatz des NTSB. Zudem müssen Sie ein umfassendes Schulungsprogramm für die Betriebs- und Wartungsmitarbeiter bereitstellen. Dieses beginnt mit der Schulung durch den Gerätehersteller oder Installateur und wird durch regelmäßige Auffrischungskurse unterstützt, um die Mitarbeiter auf dem neuesten Stand zu halten.

3. Fehlerkombinationen

Manchmal können mehrere Ereignisse zu einem gemeinsamen Versagen führen. Eine der Hauptursachen von Fehlerkombinationen ist mangelnde Sorgfalt. Stellen Sie sich vor, was passiert, wenn ein Stromausfall in Ihrem Datacenter auftritt. Ihr Generator sollte ein Startsignal erhalten und sofort den Betrieb aufnehmen. Wenn Sie es jedoch über Monate hinweg versäumt haben, die Generatorbatterie sowie den Kraftstoff- und Kühlmittelstand zu prüfen, schauen Sie schnell in die Röhre. Ebenso werden kleine Ärgernisse in großen Anlagen gerne übersehen. Für sich selbst genommen verursachen sie keinen Schaden, in Kombination mit anderen Problemen können sie jedoch schnell zu einem Systemausfall führen.

4. Handlingsfehler

Handlingsfehler sind die Hauptursache für Ausfälle in geschäftskritischen Anlagen. Wie bereits oben erwähnt, können Schulungen die Gefahr von Handlingsfehlern verringern. Zudem benötigen Sie jedoch auch detaillierte Prozessbeschreibungen. Prozessbeschreibungen erläutern im Detail, wie verschiedene Wartungsvorgänge durchzuführen sind, um sicherzustellen, dass diese immer gleich durchgeführt werden. Viel zu oft konzentrieren Unternehmen sich ausschließlich auf die schnelle Inbetriebnahme der Anlage und versäumen dabei, Prozessbeschreibungen zu entwickeln, zu dokumentieren und für die Mitarbeiter bereitzustellen. Prozesse sollten bereits in einer frühen Phase entwickelt und getestet werden, noch bevor der Betrieb der Anlage aufgenommen wird. Wenn Sie beispielsweise zu lange warten, um einen Prozess für den Wechsel des USV-Systems in den Servicebypass zu entwickeln, kann Sie das teuer zu stehen kommen. Es lohnt sich also, schon vorab die Zeit für das Unvermeidliche zu investieren. Prozessbeschreibungen sollten einen auf Ausführung und Kontrolle basierenden Ansatz verfolgen, um sicherzustellen, dass alle Schritte exakt befolgt werden.

Weitere Best Practices finden Sie im White Paper 7, „Das Erreichen von maximaler Betriebszeit in geschäftskritischen Einrichtungen“ (Maximizing Uptime in Mission-Critical Facilities), von Schneider Electric.