正如我们在一个相关帖子中解释的那样,许多IT经理叙述了在他们的分布式服务器机房和远程配线柜由意外的更确切说是常规事件引起的停机故事... 在分析这些故事时,出现了一个共同的主线:缺乏信息导致了人为错误,从而引起停机。

考虑到这些统计数据:

  • IDC估计仅在美国就有290万个服务器机房和配线柜。
  • 根据Uptime Institute的统计数据,在所报告的数据中心停电事故当中,70%以上都直接归因于人为错误。
您可以设计一个监控系统来提供为了避免代价高昂的停机而需要的信息。 对于一个其主要作用是限制在远程服务器机房发生人为错误的系统,应考虑这四个主要组成部分:视频监控、传感器、智能机架插座、监控和自动化软件。

视频监控和传感器

可扩展的监控和自动化系统可以收集、整理和分发关键的警报和监控视频。 通过监控电源、制冷、机架的后部和前部、以及环境,这些系统能够生成即时故障通知,允许对情况进行快速评估,并提供针对关键基础设施事件的解决方案,以免这些事件对IT系统的可用性产生不利影响。

视频监控系统可连接到运动传感器,从而使得在检测到运动时它可以触发摄像机对该区域进行摇摄并将视频发送到经过授权的管理员,以便管理员可以进行迅速纠正,例如纠正承包商使用收缩胶膜包装带电服务器的情况

摄像机管理系统通常允许对设施的工作人员、供应商、安全人员、托管人及其他进入服务器机房或远程配线柜的访问者进行跟踪。 管理员可以选择远程登录系统并观察房间里的任何人的动作。 一些系统可以配备扬声器,以便管理员可以发出指令或警告访问者。

智能机架插座

智能机架插座,也称为机架安装式配电单元(PDU),是安装到机架背部里面的细长条电源插座。 该设备允许用户使被锁定的设备恢复通电,并针对每个插座配置其电源被接通或关闭的顺序,预先确定哪一个设备首先通电,从而使依赖于该单元的其它设备能够正常工作。

监控系统可以通过智能机架插座测量实际功耗来防止过载,从而为管理员提供作出他们要在何处放置新设备的决策所需的信息。

监控和自动化软件

一个可为管理员提供丰富的数据从而减少由于人为错误而引起的停机的管理和自动化系统,其中包括:
  • 超出阈值时的报警和通知,可通过电子邮件、短信、电话或用户选择的其它方式发送。
  • 针对从服务器到电池等所有一切的设备状态检查。 请记住,单个电池的故障可导致关键负载的损失。 与出现了引起配线柜或服务器崩溃的故障相比,更换一个或两个电池的成本是最小的。
  • 报告分析: 由监视系统收集的数据可以被转换为定制报告以方便IT管理员审查。 此类报告可以针对诸如温度波动、哪个机架上有什么设备、发生了多长时间、特定UPS上有多少负载等情况向管理员发出报警。
  • 大批量配置: 管理员可以针对中央监控和自动化系统中的所有设备发出成批变更命令,如一次锁定50个机架门——或许是为了保护它们免受过分热心的清洁人员的无心损坏。
  • 控制: 监控和自动化系统的详细数据可为管理员提供在出现问题时他们采取控制措施所需要的信息。 例如,系统可以确定电源路径和物理系统关系及依赖性,从而可以帮助确定问题的根源。 系统也可以阐明某一设备的故障对机架上安装的设备的重要性,从而可以帮助识别关键的业务影响。
对于环境的更多控制,更多的报警和更多的历史数据有助于培养一个压力更小、停机更少的环境。 通过下载施耐德电气旗下APC公司的白皮书来了解更多,“监测系统如何减少分布式服务器机房和远程配线柜内的人为错误。”