Som vi förklarade i ett annat inlägg beskriver många IT-chefer hur driftstopp i distribuerade serverrum och fjärrinstallerade kabelskåp orsakas av oväntade men rutinmässiga händelser. Tittar man närmare på detta framträder en röd tråd: brist på information, vilket leder till mänskliga fel, vilket i sin tur orsakar driftstopp.

Ta en titt på följande statistik:

  • IDC uppskattar att det finns 2,9 miljoner serverrum och kabelskåp bara i USA.
  • Enligt Uptime Institute beror mer än 70 % av rapporterade datacenteravbrott på mänskliga fel.
Du kan utforma ett övervakningssystem så att du får den information du behöver och undviker dyra driftstopp. För ett system vars främsta uppgift är att begränsa förekomsten av mänskliga fel i fjärrinstallerade serverrum ska du titta på dessa fyra huvudkomponenter: videoövervakning, sensorer, intelligenta rack-uttag och övervaknings- och automationsprogramvara.

Videoövervakning och sensorer

Skalbara övervaknings- och automationssystem kan samla, organisera och distribuera viktiga varningar och övervakningsfilmer. Genom övervakning av kraft, kylning, rackarnas fram- och baksida samt miljön ger systemen omedelbara felmeddelanden, snabb analys av situationen och lösning av allvarliga händelser i infrastrukturen som kan påverka IT-systemets tillgänglighet negativt.

Videoövervakningssystem kan kopplas till rörelsesensorer så att kameran börjar panorera området när rörelse avkänns och skickar video till en auktoriserad administratör som snabbt kan åtgärda situationer, såsom entreprenörer som slår in servrar i drift i krympfilm.

Ett kameraövervakningssystem kan i regel spåra anläggningspersonal, leverantörer, säkerhetspersonal, väktare och andra besökare som kommer in i serverrummet eller det fjärrinstallerade kabelskåpet. En administratör kan aktivera fjärrinloggning i systemet och iaktta vad personen som befinner sig i rummet gör. Vissa system kan utrustas med högtalare så att administratören kan ge instruktioner eller varningar till besökaren.

Intelligenta rack-uttag

Intelligenta rack-uttag, även kallade rackmonterade PDU:er, är elfördelare som monteras på rackets bakre insida. Med enheterna kan användare stänga av strömmen tills servrar som kraschat och ställa in i vilken ordning strömmen slås på eller av för varje uttag, för att i förväg bestämma vilken apparat som ska slås på först så att annan utrustning som är beroende av enheten kommer att fungera korrekt.

Övervakningssystemet förhindrar överbelastning genom att mäta den faktiska förbrukningen via de intelligenta eluttagen så att administratörer får den information de behöver för att fatta beslut om var ny utrustning ska placeras.

Övervaknings- och automationsprogramvara

Ett övervaknings- och automationssystem ger administratörer en mängd data som minskar driftstopp på grund av mänskliga fel, bland annat:
  • Varningar och meddelanden när gränsvärden överskrids, via e-post, SMS, röstsamtal eller något annat medel som användaren väljer.
  • Statuskontroller av utrustning, för allt från servrar till batterier. Kom ihåg att ett fel på ett enstaka batteri kan leda till batterierna inte kan toppbelastas som avsett. Kostnaden för att byta ett eller två batterier är mycket liten jämfört med om ett fel inträffar så att skåpet eller servern kraschar.
  • Analys av rapporter: Data som samlas in av ett övervakningssystem kan omvandlas till anpassade rapporter som IT-administratören granskar. Sådana rapporter kan varna administratörer för situationer som temperaturvariationer, vem som varit vid vilket rack och hur länge, samt UPS:ens belastning.
  • Masskonfiguration: Administratörer kan utfärda order om förändring i större skala för alla enheter som lagts in i det centrala övervaknings- och automationssystemet, som att låsa 50 rackdörrar på en gång – kanske för att skydda dem mot övernitisk städpersonal.
  • Kontroll: Detaljerade data från övervaknings- och automationssystem bidrar till att ge administratörer den information de behöver för att ta kontrollen när ett problem uppstår. Ett system kan till exempel kartlägga elkraftens väg och relationen och beroendet mellan olika fysiska system, för att hjälpa till att identifiera orsaken till ett problem. Ett system kan också belysa följden av haverier i enskilda rackmonterade enheter, för att identifiera inverkan på kritisk verksamhet.
Mer kontroll över miljön, fler varningsmeddelanden och mer historisk data kan bidra till att främja en mer stressfri miljö – med färre driftstopp. Läs mer genom att hämta APC by Schneider Electrics white paper ”How Monitoring Systems Reduce Human Error in Distributed Server Rooms and Remote Wiring Closets”.