Работа без простоев — это философия. Это непрерывный процесс, который начинается на этапе планирования объекта и продолжается на каждом следующем шаге: проектирование, строительство, сдача-приемка, эксплуатация, анализ отказов и повторная приемка.
Эксплуатация центров обработки данных принимает эстафету от других отраслей, работающих с требованиями высокой эксплуатационной готовности, таких как воздушный транспорт. Каждое происшествие в воздушном движении расследуется Национальным управлением безопасности перевозок (National Transportation Safety Board, NTSB), и по итогам публикуется соответствующий документ. Идея состоит в том, чтобы исключить повторение инцидентов. Минимизация простоев в ответственных центрах обработки данных требует аналогичного подхода.
NTSB выделяет несколько категорий отказов по их причинам: ошибки проектирования, катастрофические события, стечение обстоятельств, человеческий фактор. Причины простоев ответственных объектов могут быть сведены к тем же четырем категориям, каждая из которых требует своего подхода к профилактике и «извлечению уроков».
1. Ошибки проектирования
Могут быть исключены за счет надлежащего планирования и использования продукции компетентных поставщиков. Начните с конца и составьте задание на проектирование, четко и детально отражающее ваши требования. Идет ли речь о новом строительстве, модернизации или эксплуатации действующего ответственного объекта, важно тщательно составить план работы и строго ему следовать. Также необходимо привлечь хороших специалистов по проектированию, интеграции, строительству, приемке-сдаче и нанять квалифицированный эксплуатационный персонал.
2. Катастрофические события
Всеобъемлющие программы эксплуатации и обслуживания позволяют выявлять и исключать многие потенциальные источники катастрофических отказов. Такая программа должна включать четко определенные графики обслуживания и предусматривать использование резервных мощностей для выполнения обслуживания без прерывания нормальной работы. Еще один важный момент — профилактическое обслуживание, включающее тщательный анализ каждого инцидента и использование полученных данных для прогнозирования и предотвращения подобных случаев (как это делается NTSB). Также важна всеобъемлющая программа производственного обучения специалистов по эксплуатации и обслуживанию, начинающаяся с инструктажа, проводимого поставщиками оборудования и монтажниками, и продолжающаяся регулярными мероприятиями по поддержанию квалификации.
3. Стечение обстоятельств
Иногда происходит несколько событий, приводящих к отказу только в своей совокупности. Главная причина таких происшествий — невнимание к деталям. Рассмотрим, например, такое событие, как отключение энергоснабжения центра обработки данных. В этом случае должен немедленно запускаться резервный генератор. Однако если месяцами пренебрегать проверками состояния пускового аккумулятора, уровней топлива и охлаждающей жидкости, в решительный момент генератор может и подвести. Подобным же образом на крупном объекте различные мелкие неполадки, не способные сами по себе создать крупные неприятности, часто остаются без внимания. Однако в сочетании с другими неисправностями они могут вести к отказу системы.
4. Человеческий фактор
Человеческий фактор — ведущая причина отказов на ответственных объектах. Снизить его влияние позволяет обучение (о чем уже говорилось выше), а также внедрение методов проведения работ (МПР). МПР детально определяют порядок выполнения различных операций по обслуживанию, что гарантирует единообразие и последовательность проведения этих работ. Очень часто в погоне за сроками организации пренебрегают разработкой, документированием и внедрением МПР. Разрабатывать их необходимо заблаговременно, с тем чтобы полностью завершить тестирование еще до полномасштабного ввода объекта в эксплуатацию. Ожидание разработки процедуры перевода ИБП в режим сервисного байпаса после возникновения потребности в ней может обойтись значительно дороже заблаговременной подготовки к неизбежному. Для обеспечения полноты и точности соблюдения МПР их следует выполнять в режиме наставник/ученик
Подробнее о передовом опыте в этой области читайте в информационной статье Schneider Electric №7, Минимизация простоев на ответственных объектах.