Comme nous l'expliquions dans un article précédent, les responsables informatiques ont tous des anecdotes sur des temps d'arrêt de leurs salles de serveurs distribuées et armoires de distribution distantes, causés par des événements imprévus mais plutôt de routine. L'analyse de ces récits fait ressortir une même tendance : le manque d'information. Et ce manque d'information conduit à des erreurs humaines qui provoquent des pannes.

Prenez en compte ces statistiques :

  • L'IDC estime à 2,9 millions le nombre de salles de serveurs et armoires de distribution installées aux États-Unis.
  • Et selon l'Uptime Institute, plus de 70 % des pannes de centres de données signalées sont le résultat direct d'une erreur humaine.
Vous pouvez concevoir et mettre en place un système de surveillance afin de disposer de l'information nécessaire qui vous évitera des temps d'arrêt coûteux. Pour un système dont le rôle principal est de limiter l'erreur humaine dans les salles de serveurs distants, prenez en compte ces quatre composantes clés : la surveillance vidéo, les capteurs, les sorties de rack intelligentes et les logiciels de surveillance et d'automatisation.

Surveillance vidéo et capteurs

Les systèmes de surveillance et d'automatisation évolutifs sont capables d'enregistrer des vidéos de surveillance et d'organiser et de distribuer des alertes critiques en fonction de l'événement détecté. En surveillant l'alimentation, le refroidissement, les parties avant et arrière des racks ainsi que l'environnement, ces systèmes génèrent des notifications de défaillance instantanées, permettent d'évaluer rapidement la situation et résolvent les événements d'infrastructure stratégique qui nuisent à la disponibilité du système informatique.

Les systèmes de surveillance vidéo peuvent être couplés à des capteurs de mouvement. Ainsi, chaque fois qu'un mouvement est détecté, la caméra vidéo se déclenche et enregistre une vue panoramique de la zone. Cette vidéo sera envoyée par la suite à l'administrateur autorisé. Cette personne pourra intervenir dans des cas aussi incongrus que des ouvriers emballant les serveurs sous du film plastique.

Un système de gestion avec caméra vidéo permet généralement le suivi du personnel, des fournisseurs, du personnel de sécurité et de toute autre personne qui entrerait dans la salle de serveur ou armoire de distribution distantes. Un administrateur peut choisir de se connecter à distance au système et d'observer les actions de tous ceux qui entrent dans la salle. Certains systèmes peuvent être équipés de haut-parleurs afin que l'administrateur puisse donner des instructions aux personnes présentent dans la salle.

Sorties de rack intelligentes

Les sorties de rack intelligentes, également connues sous le nom de « PDU montés en rack » sont des bandeaux de prises, longs et fins, montés au fond d'un rack. Ces équipements permettent de recycler à distance l'alimentation vers les équipements verrouillés. Ils permettent également aux utilisateurs de configurer la séquence dans laquelle l'alimentation sera activée ou désactivée pour chaque sortie. La mise en séquence permet de déterminer à l'avance quel équipement mettre sous tension en premier afin que d'autres équipements qui dépendent de cette unité puissent fonctionner correctement.

Le système de surveillance élimine les surcharges en mesurant la consommation actuelle grâce aux sorties intelligentes et offre à l'administrateur système l'information dont il a besoin pour décider où placer des éventuels nouveaux équipements.

Logiciels de surveillance et d'automatisation

Un système de gestion et d'automatisation confère à l'administrateur de nombreuses données qui l'aident à limiter les pannes consécutives à des erreurs humaines, y compris :
  • Des alarmes et notifications lors du dépassement de certains seuils. Les alarmes peuvent être des courriers électroniques, des messages de texte, des appels téléphoniques ou toute autre méthode mise en place par l'utilisateur.
  • L'état de l'équipement vérifie tout le matériel, des serveurs aux batteries. N'oubliez pas qu'il suffit qu'une seule batterie lâche pour provoquer l'arrêt de la charge critique. Le coût de remplacement d'une ou deux batteries est infime comparé au coût qu'engendrerait une panne générale d'un serveur ou d'une armoire de distribution.
  • Rapports d'analyses : Les données recueillies par un système de surveillance peuvent être transformées en rapports personnalisés à l'attention de l'administrateur. Ces rapports peuvent alerter les administrateurs des situations telles que les fluctuations de température, qui a manipulé tel rack et pendant combien de temps ou quelle est la charge d'un onduleur en particulier.
  • Configuration automatisée : Les administrateurs peuvent décider d'appliquer le même paramétrage de sécurité à tous les dispositifs répertoriés dans le système central de surveillance et d'automatisation, comme le verrouillage groupé des 50 portes d'armoires pour éviter par exemple, le zèle de propreté de l'équipe de nettoyage.
  • Contrôle : Les données de surveillance et d'automatisation offrent aux administrateurs toute l'information dont ils ont besoin pour contrôler les dispositifs en cas de problème. Le système peut, par exemple, identifier le circuit électrique et illustrer les relations et dépendances entre systèmes physiques. Ceci accélère et simplifie les diagnostics de la source du problème. Un système peut également simuler la conséquence d'une défaillance d'un dispositif précis dans un rack et aider à connaître son impact réel.
Plus de contrôle sur l'environnement, plus d'alertes et plus de données sur le fonctionnement dans le temps contribuent à préserver le matériel et à diminuer le temps d'arrêt. Pour en savoir plus, téléchargez le livre blanc d'APC by Schneider Electric, « Comment réduire les risques d'erreur humaine dans les salles de serveurs distribuées et les armoires de câblage distantes grâce à des solutions de surveillance. »