Wie bereits in einem verwandten Beitrag erläutert, können viele IT-Manager von Ausfallzeiten in ihren dezentralisierten Serverräumen und Remote- Netzwerkräumen berichten, die durch unerwartete, aber dennoch als Routine geltende Ereignisse verursacht wurden. Analysiert man diese Berichte, ergibt sich ein gemeinsamer roter Faden: Mangelnde Informationen führen zu menschlichem Versagen, was wiederum den Ausfall verursacht.

Führen Sie sich folgende Statistiken vor Augen:

  • IDC schätzt, dass es allein in den USA 2,9 Millionen Server- und Netzwerkräume gibt.
  • Mehr als 70% der gemeldeten Datacenter-Ausfälle sind laut dem Uptime Institute direkt auf Handlingsfehler zurückzuführen.
Sie können ein Überwachungssystem entwickeln, das Ihnen die benötigten Informationen zur Vermeidung von teuren Ausfallzeiten bereitstellt. Bei Systemen, deren Hauptaufgabe darin besteht, Handlingsfehler in entfernten Serverräumen zu vermeiden, sollten Sie nach den vier folgenden Kernkomponenten Ausschau halten: Videoüberwachung, Sensoren, intelligente Rackanschlüsse und Überwachungs- und Automatisierungssoftware.

Videoüberwachung und Sensoren

Skalierbare Überwachungs- und Automatisierungssysteme erfassen, organisieren und verteilen wichtige Benachrichtigungen und Überwachungsvideos. Durch die Überwachung der Stromversorgung, Kühlung, Vorder- und Rückseiten der Racks und Umfeld generieren sie sofortige Fehlerbenachrichtigungen, ermöglichen eine schnelle Einschätzung der Lage und stellen Lösungen für kritische Infrastrukturereignisse bereit, die die Verfügbarkeit des IT-Systems beeinträchtigen könnten.

Videoüberwachungssysteme können mit Bewegungssensoren verknüpft werden, die bei einer Bewegung die Kamera auslösen, um ein Video des Bereichs aufzunehmen. Dieses Video wird dann an den autorisierten Administrator gesendet, der die Situation schnell beheben kann, beispielsweise wenn Vertragspartner aktive Server einpacken.

Ein Kameramanagementsystem ermöglicht in der Regel die Verfolgung von Anlagenmitarbeitern, Lieferanten, Sicherheitspersonal, Aufsichtspersonal und anderen Besuchern, die den entfernten Server- oder Netzwerkraum betreten. Optional kann ein Administrator sich per Remotezugriff beim System anmelden und die Handlungen aller im Raum befindlichen Personen beobachten. Einige Systeme können mit Lautsprechern ausgerüstet werden, damit der Administrator Anweisungen bereitstellen oder Besucher warnen kann.

Intelligente Rackanschlüsse

Intelligente Rackanschlüsse, auch bekannt als Rackstromverteiler, sind lange, dünne Steckdosenleisten, die innen an der Rückseite eines Racks montiert werden. Die Geräte gestatten Benutzern, nicht mehr reagierende Geräte per Fernzugriff neu zu starten und die Ein- bzw. Ausschaltreihenfolge für jeden Anschluss festzulegen. So kann bestimmt werden, welches System zuerst eingeschaltet wird, damit von anderen Systemen abhängige Komponenten ordnungsgemäß funktionieren.

Das Überwachungssystem vermeidet eine Überlastung, indem der tatsächliche Verbrauch über die intelligenten Rackanschlüsse gemessen wird. Administratoren erhalten dadurch die notwendigen Informationen, um Entscheidungen zur Platzierung neuer Systeme zu treffen.

Überwachungs- und Automatisierungssoftware

Ein Überwachungs- und Automatisierungssystem stellt Administratoren umfassende Daten zur Verfügung, die durch menschliche Fehler verursachte Ausfallzeiten verringern, darunter:
  • Alarme und Benachrichtigungen per E-Mail, Textnachricht, Anruf oder eine andere vom Benutzer ausgewählte Methode, wenn Schwellwerte überschritten werden.
  • Gerätestatusprüfungen für alle Komponenten, von den Servern bis zu den Batterien. Vergessen Sie nicht, dass der Ausfall einer einzigen Batterie zum Verlust der kritischen Last führen kann. Eine oder zwei Batterien zu ersetzen ist deutlich günstiger als ein Ausfall, durch den der Raum oder Server zum Absturz gebracht wird.
  • Berichtsanalysen: Von einem Überwachungssystem erfasste Daten können in angepasste Berichte umgewandelt werden, die dann vom IT-Administrator geprüft werden. Diese Berichte informieren Administratoren über Ereignisse wie Temperaturschwankungen, wer wie lange an welchem Rack tätig war und wie viele Abnehmer mit einer bestimmten USV verbunden sind.
  • Massenkonfiguration: Administratoren können Massenänderungsbefehle für alle im zentralen Überwachungs- und Automatisierungssystem hinterlegten Systeme ausgeben, um beispielsweise 50 Racktüren gleichzeitig zu verriegeln (vielleicht zum Schutz vor übereifrigem Reinigungspersonal).
  • Steuerung: Die Daten eines detaillierten Überwachungs- und Automatisierungssystems stellen Administratoren die entscheidenden Informationen bereit, um bei Problemen das Ruder in die Hand zu nehmen. Beispielsweise kann ein System die Verbindungen und Abhängigkeiten zwischen dem Strompfad und dem physischen System darstellen, um die Quelle eines Problems zu finden. Zudem kann ein System die Folgen eines Ausfalls einer bestimmten rackbasierten Komponente illustrieren, um entscheidende geschäftliche Auswirkungen zu erkennen.
Eine bessere Kontrolle über den Standort, umfassendere Benachrichtigungen und mehr Verlaufsdaten können zu einer stressfreien Umgebung mit weniger Ausfällen führen. Mehr zu diesem Thema erfahren Sie im White Paper „Wie Ausfälle durch Handlingsfehler durch die Überwachung von Systemen in dezentralen Serverräumen und entfernten Netzwerkräumen reduziert werden“ (How Monitoring Systems Reduce Human Error in Distributed Server Rooms and Remote Wiring Closets) von APC by Schneider Electric™.