Quatre défaillances qui mettent la disponibilité maximum en péril et comment les éviter

La disponibilité maximum est une philosophie en soit. Elle commence lors de la planification de votre installation et se poursuit comme un processus permanent à chaque étape de sa durée de vie, que ce soit lors de sa conception, construction, mise en service, exploitation, analyse des défaillances et même son démantèlement.

Les opérateurs de centres de données peuvent prendre exemple sur les pratiques d'autres industries, telles que les compagnies aériennes, qui opèrent dans des conditions très strictes. Lorsqu'un incident aérien survient, le Conseil national de la sécurité des transports des États-Unis [ou NTSB pour ses sigles en anglais, National Transportation Safety Board] mène une enquête et rédige, le cas échéant, un rapport sur les « leçons apprises. » L'idée étant d'essayer d'éviter qu'un tel incident se reproduise dans le futur. Pour assurer une disponibilité maximum des centres de données stratégiques, les compagnies qui les gèrent doivent adopter une approche similaire.

Selon le NTSB, les accidents surviennent à cause de quatre type de défaillances : défaillances de conception, défaillances de maintenance, défaillances des composants et défaillances dues à des erreurs humaines. Le temps d'arrêt des installations dites stratégiques peut également être attribué à ces quatre types de défaillances et chacune d'entre elles méritent une approche différente en matière de programmes de prévention et de « leçons apprises. »

1. Défaillances de conception

Les défaillances de conception peuvent être éliminées grâce à une bonne planification et à une collaboration avec des fournisseurs compétents. Commencez toujours par le début et définissez clairement et en détail tous vos besoins au sein d'un document. Qu'il s'agisse d'une nouvelle installation ou de la modernisation d'un centre de données stratégiques, il est primordial de planifier soigneusement le travail et de travailler avec rigueur la planification. S'adjoindre les services d'une entreprise pour la conception, d'une entreprise pour la construction et d'une équipe pour la mise en œuvre est également un atout de taille qui vous aidera à réduire les défaillances.

2. Défaillances de maintenance

Des programmes de maintenance et d'exploitation complets capables d'identifier et d'éliminer les possibles problèmes vous permettront d'éviter les défaillances de maintenance. Votre programme doit inclure des fenêtres de maintenance bien définies, avec la redondance intégrée nécessaire de manière à ce que les services ne soient pas interrompus pendant les opérations de maintenance. La maintenance prédictive est également un paramètre important. Elle doit réaliser une analyse approfondie après chaque incident et elle doit utiliser les résultats pour prédire et empêcher les problèmes futurs, de la même manière que la NTSB le fait avec son approche des « leçons apprises. » La mise en place d'un programme complet de formation du personnel d'exploitation et de maintenance est également importante. Cette formation devrait être fournie par les fabricants ou les installateurs des composants de votre système, avec des séances régulières de manière à maintenir le personnel d'exploitation et de maintenance à jour.

3. Défaillances des composants

De temps à autres, plusieurs événements se produisent pour créer ce que l'on appelle une défaillance des composants. Le manque d'attention aux détails est l'une des causes principales des défaillances des composants. Imaginez les conséquences d'une panne de courant sur vos données. Votre générateur doit, en principe, recevoir un signal de démarrage et se mettre en marche immédiatement. Mais si vous n'avez pas vérifié la batterie, le plein d'essence ou le niveau d'huile de votre générateur depuis des mois, il est fort probable qu'il ne démarre pas. De même, certains petits éléments nuisibles au sein d'une grande installation peuvent parfois être négligés. Et bien qu'individuellement, ils ne peuvent pas endommager l'installation, lorsqu'ils sont associés à d'autres problèmes, ils peuvent provoquer une défaillance du système.

4. Défaillances dues à des erreurs humaines

L'erreur humaine est la principale cause des défaillances dans les installations dites stratégiques. Comme indiqué ci-dessus, la formation peut aider à réduire l'incidence de l'erreur humaine, mais elle doit également être accompagnée par des modes opératoires normalisés (MON). Les MON définissent en détail comment effectuer les diverses opérations de maintenance, garantissant leur exécution à l'identique à chaque intervention. Trop souvent, les organisations ne parviennent pas à développer, documenter et déployer les MON car elles sont trop pressées de mettre en ligne leur installation. Ces modes opératoires doivent être élaborés dès le début et testés avant que l'installation soit complètement opérationnelle. Attendre pour mettre en place une procédure de transfert de l'onduleur vers le bypass de maintenance risque de coûter plus cher que de prendre le temps d'anticiper l'inévitable. Les MON doivent également être effectués avec une approche de pilote/co-pilote afin de s'assurer que la procédure est suivie au pied de la lettre.

Pour en savoir plus sur les meilleures pratiques, consultez le livre blanc n° 7 de Schneider Electric, intitulé Optimiser la disponibilité dans les installations stratégiques.