4 вида отказов, связанных с наибольшим риском простоя

Работа без простоев — это философия. Это непрерывный процесс, который начинается на этапе планирования объекта и продолжается на каждом следующем шаге: проектирование, строительство, сдача-приемка, эксплуатация, анализ отказов и повторная приемка.

Эксплуатация центров обработки данных принимает эстафету от других отраслей, работающих с требованиями высокой эксплуатационной готовности, таких как воздушный транспорт. Каждое происшествие в воздушном движении расследуется Национальным управлением безопасности перевозок (National Transportation Safety Board, NTSB), и по итогам публикуется соответствующий документ. Идея состоит в том, чтобы исключить повторение инцидентов. Минимизация простоев в ответственных центрах обработки данных требует аналогичного подхода.

NTSB выделяет несколько категорий отказов по их причинам: ошибки проектирования, катастрофические события, стечение обстоятельств, человеческий фактор. Причины простоев ответственных объектов могут быть сведены к тем же четырем категориям, каждая из которых требует своего подхода к профилактике и «извлечению уроков».

1. Ошибки проектирования

Могут быть исключены за счет надлежащего планирования и использования продукции компетентных поставщиков. Начните с конца и составьте задание на проектирование, четко и детально отражающее ваши требования. Идет ли речь о новом строительстве, модернизации или эксплуатации действующего ответственного объекта, важно тщательно составить план работы и строго ему следовать. Также необходимо привлечь хороших специалистов по проектированию, интеграции, строительству, приемке-сдаче и нанять квалифицированный эксплуатационный персонал.

2. Катастрофические события

Всеобъемлющие программы эксплуатации и обслуживания позволяют выявлять и исключать многие потенциальные источники катастрофических отказов. Такая программа должна включать четко определенные графики обслуживания и предусматривать использование резервных мощностей для выполнения обслуживания без прерывания нормальной работы. Еще один важный момент — профилактическое обслуживание, включающее тщательный анализ каждого инцидента и использование полученных данных для прогнозирования и предотвращения подобных случаев (как это делается NTSB). Также важна всеобъемлющая программа производственного обучения специалистов по эксплуатации и обслуживанию, начинающаяся с инструктажа, проводимого поставщиками оборудования и монтажниками, и продолжающаяся регулярными мероприятиями по поддержанию квалификации.

3. Стечение обстоятельств

Иногда происходит несколько событий, приводящих к отказу только в своей совокупности. Главная причина таких происшествий — невнимание к деталям. Рассмотрим, например, такое событие, как отключение энергоснабжения центра обработки данных. В этом случае должен немедленно запускаться резервный генератор. Однако если месяцами пренебрегать проверками состояния пускового аккумулятора, уровней топлива и охлаждающей жидкости, в решительный момент генератор может и подвести. Подобным же образом на крупном объекте различные мелкие неполадки, не способные сами по себе создать крупные неприятности, часто остаются без внимания. Однако в сочетании с другими неисправностями они могут вести к отказу системы.

4. Человеческий фактор

Человеческий фактор — ведущая причина отказов на ответственных объектах. Снизить его влияние позволяет обучение (о чем уже говорилось выше), а также внедрение методов проведения работ (МПР). МПР детально определяют порядок выполнения различных операций по обслуживанию, что гарантирует единообразие и последовательность проведения этих работ. Очень часто в погоне за сроками организации пренебрегают разработкой, документированием и внедрением МПР. Разрабатывать их необходимо заблаговременно, с тем чтобы полностью завершить тестирование еще до полномасштабного ввода объекта в эксплуатацию. Ожидание разработки процедуры перевода ИБП в режим сервисного байпаса после возникновения потребности в ней может обойтись значительно дороже заблаговременной подготовки к неизбежному. Для обеспечения полноты и точности соблюдения МПР их следует выполнять в режиме наставник/ученик

Подробнее о передовом опыте в этой области читайте в информационной статье Schneider Electric №7, Минимизация простоев на ответственных объектах.

Your browser is out of date and has known security issues. It also may not display all features of this website or other websites. Please upgrade your browser to access all of the features of this website. Internet Explorer 9 or higher is recommended for optimal functionality.

Chat

Do you have questions or need assistance? We’re here to help!