Как мы уже писали в связанном сообщении, многим ИТ-специалистам больше приходят на память случаи простоя в распределенных серверных не из-за чрезвычайных, а из-за самых рутинных событий. При анализе этих случаев у них обнаруживается одна общая черта — недостаток информации приводит к человеческим ошибкам, а они, в свою очередь — к простою.

Позвольте немного статистики.

  • Согласно оценкам IDC, только в США насчитывается 2,9 млн серверных и коммутационных узлов.
  • По подсчетам Uptime Institute, более 70% регистрируемых отключений центров обработки данных прямо связано с ошибками операторов.
Получать информацию, необходимую для избежания дорогостоящих простоев, можно с помощью системы мониторинга. Рассмотрим четыре компонента системы, главная задача которой — уменьшить число человеческих ошибок в удаленных серверных залах: видеонаблюдение, датчики, интеллектуальные стоечные системы питания и программное обеспечение для мониторинга и автоматизации.

Видеонаблюдение и датчики

Масштабируемые системы мониторинга и автоматизации обеспечивают сбор, организацию и распространение критически важных уведомлений и видеозаписей. Отслеживая состояние электропитания и охлаждения, контролируя передние и задние дверцы стоек, а также внешнюю среду, эти системы мгновенно выдают уведомления о сбоях, помогают оперативно оценивать ситуацию и реагировать на серьезные события в инфраструктуре, которые могут негативно сказаться на готовности ИТ-систем.

Системы видеонаблюдения могут быть соединены с датчиками движения таким образом, чтобы направлять камеры на зону, где обнаружено движение, и передавать картинку ответственному администратору, чтобы он при необходимости вмешался в ситуацию. Например, воспрепятствовал сотрудникам подрядчика упаковать в пленку работающий сервер.

Система управления камерами обычно позволяет отслеживать персонал инженерных служб, подрядчиков, сотрудников служб безопасности, уборщиков и других людей в серверной или удаленном коммутационном узле. Администратор может удаленно войти в систему и наблюдать за действиями находящихся в помещении. Некоторые системы оснащаются динамиками, чтобы администратор мог давать указания находящимся в помещении.

Интеллектуальные стоечные блоки розеток

Известны также как стоечные БРП. Длинные тонкие блоки электрических розеток, монтируемые в тыльной части стойки. Эти устройства позволяют дистанционно включать и выключать питание зависшего оборудования и формировать последовательности включения и выключения отдельных устройств с учетом их взаимозависимостей.

Система мониторинга помогает предотвращать возникновение перегрузок, измеряя фактическую мощность потребления через интеллектуальные розетки и предоставляя администраторам необходимые сведения для выбора мест установки нового оборудования.

ПО управления и автоматизации

Система управления и автоматизации предоставляет в распоряжение администратора огромный объем данных, позволяющих сократить время простоев из-за человеческих ошибок.
  • Уведомления об авариях и о превышении установленных порогов выдаются по электронной почте, телефону, с использованием систем текстовых сообщений или иных выбираемых пользователем средств.
  • Контроль состояния оборудования от серверов до батарей. Не следует забывать, что отказ всего одной батареи может привести к потере критически важной нагрузки. Расходы на замену одной-двух батарей меркнут по сравнению с перспективой сбоя, приводящего к отключению серверной или коммутационного узла.
  • Анализ отчетов Данные, собираемые системой мониторинга, можно преобразовывать в отчеты с заданными параметрами, предназначенные для использования ИТ-администратором. Такие отчеты могут содержать сведения о колебаниях температуры, о времени и продолжительности работы со стойками тех или иных специалистов, о величине нагрузки на конкретный ИБП.
  • Массовое конфигурирование оборудования Администратор может одной командой запустить процесс изменения конфигурации большого числа устройств под управлением централизованной системы мониторинга и автоматизации. Например, запереть дверцы сразу 50 шкафов с оборудованием — для защиты от чрезмерного усердия уборщиков.
  • Управление Подробные данные, собираемые системой мониторинга и автоматизации, помогают администраторам контролировать ситуацию. Например, система может составить схему потоков мощности и физических взаимоотношений и зависимостей, которая будет полезна для выявления источника неисправности. Кроме того, она может наглядно продемонстрировать последствия отказа определенного устройства в стойке — и определить, не повлияет ли он на работу критически важных бизнес-приложений.
Более полный контроль над средой, лучшее оповещение и более полная статистика помогают снизить нагрузки в системе — и сократить простои. Для дальнейшего чтения рекомендуется информационная статья APC by Schneider Electric «Использование систем мониторинга для уменьшения числа человеческих ошибок в распределенных серверных залах и удаленных коммутационных узлах».