使最大运行时间存在风险的4类故障 - 以及如何加以避免

最长运行时间是一种理念。 它从您的设施规划开始,并经历设计、施工、试运行、运行、故障分析和重新试运行的每一步,一直是一个持续的过程。

数据中心运营商可以取用来自在任务关键条件下运行的其他行业(如航空公司)的页面。 每当有某种空中交通事件发生时,美国国家运输安全委员会(NTSB)会进行调查,并最终发布一份“所获教训”的文件。 这样做是为了尽量避免这一事件在未来重演。 确保任务关键型数据中心的正常运行时间的最大化要求企业采取类似的做法。

NTSB称,事故的发生源自于一种或多种类型的故障:设计失效、灾难性故障、复合故障和人为错误的故障。 任务关键型设施的停机也可以归因为这4种类型的故障,每种类型均需要不同的预防措施和“所获教训”的方案。

1. 设计失效

设计失效可以通过适当的规划和与合格厂商的合作加以消除。 首先要知道想要达到的目标,并给出明确表述您的要求的设计意图文件,要详细。 无论是新建、升级还是运行现有的任务关键型设施,精心制定工作规划和按计划工作都非常重要。 同样至关重要的是要有好的设计公司、集成公司、建筑公司和试运行团队以及训练有素的操作人员,以减少故障。

2. 灾难性故障

全面的维护和运行方案可以识别并消除尽可能多的潜在问题,帮助您避免灾难性故障。 您的方案应该包括明确规定的维护窗口,其要内建有适当的冗余,以便在进行维护时服务不会中断。 预防性维护是另一个重要的考虑因素,其需要在每次事件发生后进行彻底的故障分析,并使用其结果来预测和预防未来的问题 - 就像NTSB使用其“所获教训”的方式一样。 同样重要的是有一个针对运行和维护人员的全面的培训计划,培训从设备制造商或安装商提供的培训开始,此后还要有定期的培训,以保持运行和维护人员掌握最新的内容。

3. 复合故障

在多个事件发生时导致故障,这种状况成为复合故障。 缺乏关注细节是产生复合故障的首要原因。 考虑如果您的数据中心遭遇停电会发生什么。 您的发电机应收到启动信号,立即发动。 但如果您有几个月都没有检查发电机蓄电池、燃料和冷却液位,它可能会让您失望。 同样,大型设施中的小问题有时会被忽视,其本身不会对设施造成不良影响,但伴随其他问题的发生,可能形成系统故障。

4. 人为错误故障

人为错误是任务关键型设施中故障的一个主要原因。 如上所述,培训有助于减少人为故障的发生率,但还有另一个要求是采用详细的规程方法(MOP)。 MOP将详细规定如何执行各种维护职能,确保其一直以相同的方式进行。 很多时候,在急于使设备投用时,机构会不进行MOP的制定、存档和部署。 这些规程应在设施完全投用之前提前制定和测试。 等待制定将UPS系统转移到维护旁路的规程可能会被证明要比提前花时间来准备不可避免的情况的代价高得多。 "MOP也应采取试验/联合试验方式进行,以确保规程得以遵循,达到T。

如要对最优方法了解更多,请查阅施耐德电气白皮书7, 《使任务关键型设施的运行时间最大化》。"