最大アップタイムを脅かす4種類のエラーとその回避方法

最大アップタイムは多くのものの指針になります。 この指針は施設の計画から始まり、設計、構築、試運転、運用、エラー解析、再試運転のすべての段階において継続的なプロセスであり続けます。

データセンターのオペレーターは、航空会社など、ミッションクリティカルな業務を行っている他の業界のやり方を見習うことができます。 何らかの航空事故があるたびに、米国国家運輸安全委員会(NTSB)は調査を行い、最終的に「教訓」文書を発行します。 これは、将来事故の再発を防ぐためです。 ミッションクリティカルなデータセンターにおいて最大アップタイムを確保するには、同じような手法を採用する必要があります。

NTSBによると、事故は設計エラー、突発エラー、複合エラー、人為的ミスのうち1種類以上のエラーが原因で発生します。 ミッションクリティカルな施設でのダウンタイムもこの4種類のエラーが原因と考えることができます。そして、それぞれに異なる防止手法と「教訓」プログラムが必要です。

1. 設計エラー

設計エラーは、適切な計画を行い、有能なベンダーを利用することで、回避が可能となります。 最終形を念頭に置いて作業を開始し、要件を詳細かつ明確に記載した設計意図の文書を作成しましょう。 新規構築、アップグレード、または既存のミッションクリティカル施設の運用のいずれも、作業を綿密に計画し、遂行することが重要です。 エラーを減らすには、適切な研修を受けた業務スタッフとともに、優秀な設計事務所、システムインテグレーター、建設会社、および試運転チームも重要となります。

2. 突発エラー

総合的なメンテナンスおよび運用プログラムは、多くの潜在的な問題を特定して除去でき、突発エラーの回避に役立ちます。 プログラムには明確なメンテナンス手段を組み込み、メンテナンス実施中にサービスが中断されることがないように適度な冗長性を持たせる必要があります。 NTSBが「教訓」アプローチで行っているのとまったく同じように、問題が発生したら徹底的なエラー解析を実施し、その結果に基づき、将来の問題を予測および防止する予防保全の検討も重要です。 機器メーカーや設置業者によるトレーニングから、最新の知識を維持するための定期トレーニングまで、業務スタッフとメンテナンススタッフ向けの総合トレーニングプログラムを行うことも重要です。

3. 複合エラー

複数の事象が発生してエラーが生じた場合、その状況を複合エラーと呼びます。 複合エラーの主な原因は細部への注意不足です。 データセンターで停電が発生した場合、何が起こるか考えてみてください。 発電機が始動信号を受け取り、即座に始動するはずです。 しかし、発電機のバッテリー、燃料、および冷却液レベルのチェックを数カ月続けて怠っていると、これらがうまく動作しない可能性があります。 これと同じように、大規模な施設の小さく手間のかかる項目は見過ごされる場合があり、それ自体で施設に悪影響を与えることはなくても、他の問題と重なり、システム障害を引き起こすことがあります。

4. 人為的ミス

ミッションクリティカルな施設のエラーの主な原因は、人為的ミスです。 前述のとおり、トレーニングは人為ミスの発生を抑制するために役立ちますが、詳細な手順書(MOP)も欠かせません。 MOPは、常に同じ手順を確実に実行するために、各種メンテナンス機能の実行手順を詳細に定めます。 施設のオンライン化を急ぐあまり、MOPの策定、文書化、および活用を怠るケースは少なくありません。 MOPの手順は早い段階で策定し、施設の完全稼働が始まる前にテストを行いましょう。 UPSシステムを保守バイパス給電に切り替える手順の策定にもたつくほうが、不可避の事態に備えて事前に時間に投資するより、はるかに高くつく可能性があります。 また、手順が確実に行われるように、MOPは非常に慎重に実行する必要があります。

さらなるベストプラクティスを学ぶには、シュナイダーエレクトリックのホワイトペーパー7『Maximizing Uptime in Mission-Critical Facilities』 をご覧ください(英語サイト)。