Как мы уже писали в связанном сообщении, многим ИТ-специалистам больше приходят на память случаи простоя в распределенных серверных не из-за чрезвычайных, а из-за самых рутинных событий. При анализе этих случаев у них обнаруживается одна общая черта — недостаток информации приводит к человеческим ошибкам, а они, в свою очередь — к простою.
Позвольте немного статистики.
- Согласно оценкам IDC, только в США насчитывается 2,9 млн серверных и коммутационных узлов.
- По подсчетам Uptime Institute, более 70% регистрируемых отключений центров обработки данных прямо связано с ошибками операторов.
Видеонаблюдение и датчики
Масштабируемые системы мониторинга и автоматизации обеспечивают сбор, организацию и распространение критически важных уведомлений и видеозаписей. Отслеживая состояние электропитания и охлаждения, контролируя передние и задние дверцы стоек, а также внешнюю среду, эти системы мгновенно выдают уведомления о сбоях, помогают оперативно оценивать ситуацию и реагировать на серьезные события в инфраструктуре, которые могут негативно сказаться на готовности ИТ-систем.
Системы видеонаблюдения могут быть соединены с датчиками движения таким образом, чтобы направлять камеры на зону, где обнаружено движение, и передавать картинку ответственному администратору, чтобы он при необходимости вмешался в ситуацию. Например, воспрепятствовал сотрудникам подрядчика упаковать в пленку работающий сервер.
Система управления камерами обычно позволяет отслеживать персонал инженерных служб, подрядчиков, сотрудников служб безопасности, уборщиков и других людей в серверной или удаленном коммутационном узле. Администратор может удаленно войти в систему и наблюдать за действиями находящихся в помещении. Некоторые системы оснащаются динамиками, чтобы администратор мог давать указания находящимся в помещении.
Интеллектуальные стоечные блоки розеток
Известны также как стоечные БРП. Длинные тонкие блоки электрических розеток, монтируемые в тыльной части стойки. Эти устройства позволяют дистанционно включать и выключать питание зависшего оборудования и формировать последовательности включения и выключения отдельных устройств с учетом их взаимозависимостей.
Система мониторинга помогает предотвращать возникновение перегрузок, измеряя фактическую мощность потребления через интеллектуальные розетки и предоставляя администраторам необходимые сведения для выбора мест установки нового оборудования.
ПО управления и автоматизации
Система управления и автоматизации предоставляет в распоряжение администратора огромный объем данных, позволяющих сократить время простоев из-за человеческих ошибок.
- Уведомления об авариях и о превышении установленных порогов выдаются по электронной почте, телефону, с использованием систем текстовых сообщений или иных выбираемых пользователем средств.
- Контроль состояния оборудования от серверов до батарей. Не следует забывать, что отказ всего одной батареи может привести к потере критически важной нагрузки. Расходы на замену одной-двух батарей меркнут по сравнению с перспективой сбоя, приводящего к отключению серверной или коммутационного узла.
- Анализ отчетов Данные, собираемые системой мониторинга, можно преобразовывать в отчеты с заданными параметрами, предназначенные для использования ИТ-администратором. Такие отчеты могут содержать сведения о колебаниях температуры, о времени и продолжительности работы со стойками тех или иных специалистов, о величине нагрузки на конкретный ИБП.
- Массовое конфигурирование оборудования Администратор может одной командой запустить процесс изменения конфигурации большого числа устройств под управлением централизованной системы мониторинга и автоматизации. Например, запереть дверцы сразу 50 шкафов с оборудованием — для защиты от чрезмерного усердия уборщиков.
- Управление Подробные данные, собираемые системой мониторинга и автоматизации, помогают администраторам контролировать ситуацию. Например, система может составить схему потоков мощности и физических взаимоотношений и зависимостей, которая будет полезна для выявления источника неисправности. Кроме того, она может наглядно продемонстрировать последствия отказа определенного устройства в стойке — и определить, не повлияет ли он на работу критически важных бизнес-приложений.