Чотири типи відмов, що перешкоджають гранично скоротити простої, та як їм запобігти

Максимальна безперебійність — це ідеологія. Вона починається на стадії планування виробничих потужностей, триває, як безперервний процес, на всіх етапах проектування, монтажу, пуско-налагодження, експлуатації, аналізу відмов та післяаварійного перезапуску.

Оператори центрів обробки даних можуть запозичити досвід з інших галузей, де працюють за умов підвищених вимог до безперебійності, наприклад, цивільної авіації. Якщо трапляється аварія, Національне бюро транспортної безпеки (НБТБ) розслідує її й випускає документ, де описуються «винесені уроки». Це для того, щоб запобігти повторенню аварії. Подібний підхід доцільно застосовувати фірмам, які намагаються максимально скоротити простої відповідальних ЦОД.

За даними НТБТ, аварії можна віднести до однієї або кількох категорій: вада проекту, раптова повна відмова, ланцюгова відмова, помилка персоналу. Простої на відповідальних об’єктах також можуть бути віднесені до цих причин, кожна з яких вимагає свого варіанту профілактики й програм «винесення уроків».

1. Вада проекту

Вадам проекту можна запобігти завдяки належному плануванню й вибору найбільш компетентних постачальників. Розпочинайте роботу з прицілом на кінцевий результат, розробіть документ під назвою «Початкові дані», де буде чітко й детально викладено технічне завдання. Ретельно планувати роботи й робити все суворо за планом важливо незалежно від того, чи йдеться про спорудження нового, модернізацію чи експлуатацію наявного відповідального об'єкту. Щоб уникнути відмов у подальшому, украй важливо звертатися до найкращих проектних бюро, фірм-інтеграторів, будівельних компаній та пусконалагоджувальних бригад, а також залучати до експлуатації добре вишколений персонал.

2. Раптова повна відмова

Комплексні програми технічного обслуговування й експлуатації дозволять виявити й усунути більшість недоліків, що сприятиме запобіганню повних відмов. Програма має передбачати добре визначені періоди технічного обслуговування, при цьому устаткування мусить бути продубльоване, щоб у ці періоди служби діяли. Ще одна важлива річ — регламентно-профілактичні роботи. Вони ґрунтуються на аналізі відмов, прогнозуванні та профілактиці майбутніх несправностей, і в цьому подібні до «винесення уроків» у НБТБ. Важливо мати комплексну програму навчання експлуатаційного та ремонтного персоналу. Вона може починатися з курсів, які проводять виробники устаткування або пусконалагоджувальні організації, а далі передбачати підвищення кваліфікації зазначеного персоналу.

3. Ланцюгова відмова

Подеколи до виходу з ладу призводять кілька послідовних взаємозв’язаних подій. Це й є ланцюгова відмова. Ланцюгові відмови найчастіше зумовлені нехтуванням дрібницями. Що відбувається, наприклад, коли в ЦОД вимикається живлення від мережі? Має негайно отримати сигнал і запуститися резервний генератор. Проте, якщо ви місяцями нехтували перевіркою пускового акумулятора, рівня пального й охолоджувальної рідини, він може й не запуститися. Отак і на великому підприємстві дрібні незручності можуть залишатися непоміченими. Кожна з них сама по собі не шкодить, але в сукупності вони можуть призвести до системної аварії.

4. Помилка персоналу

Людський фактор — найпоширеніша причина аварій на відповідальних об’єктах. Як уже говорилося, до зменшення ймовірності помилок персоналу може придатися систематичне навчання. Ще один засіб — докладні технологічні регламенти. У ТР докладно описані роботи з технічного обслуговування. Якщо їх дотримуватися, ці роботи завжди виконуватимуться в однаковий спосіб. Надто часто аврал перед пуском об’єкта призводить до того, що ТР не розробляють, не оформлюють, не впроваджують. Їх слід розробляти якнайраніше й випробовувати, перш ніж об’єкт стане до ладу. Якщо не розробити регламент переведення системи ДБЖ на ремонтний байпас, шкода може значно перевищити витрати на те, щоб підготуватися до невідворотного заздалегідь. Крім цього, ТР мають містити перехресні перевірки, завдяки яким забезпечується безумовне дотримання порядку дій.

Докладніше про передовий досвід див. аналітичну доповідь Schneider Electric № 7 «Як максимально скоротити простої на відповідальних об’єктах».