최대 가동 시간을 위태롭게 하는 4가지 유형의 장애와 이를 방지하는 방법

최대 가동 시간은 철학의 문제입니다. 최대 가동 시간은 시설 계획의 수립으로 시작되며, 설계, 구축, 시운전, 운영, 장애 분석 및 재시운전의 모든 단계에 걸쳐 지속적으로 유지되는 프로세스입니다.

데이터 센터 운영자는 항공사와 같이 미션 크리티컬한 환경에서 운영되고 있는 산업들의 선례를 따를 수 있습니다. 일종의 항공 사고가 발생할 때마다 미국의 국가운수안전위원회(NTSB)에서는 이를 조사하여 '사고에서 얻은 교훈'에 관한 문서를 발행하고 있습니다. 이는 향후 동일한 사고가 반복되는 것을 막기 위한 것입니다. 미션 크리티컬한 데이터 센터의 가동 시간을 극대화 하기 위해서는 기업들도 이와 유사한 접근 방법을 취해야 합니다.

NTSB는 사고가 발생하는 이유는 설계 장애, 돌발 장애, 복합 장애 및 인적 오류와 같은 한 가지 이상의 장애 유형들로 인한 것이라고 밝히고 있습니다. 미션 크리티컬한 시설에서 발생하는 가동 중단 시간도 이러한 4가지 유형의 장애에 기인할 수 있으며, 이러한 장애들 각각에 요구되는 방지 접근 방법과 '교훈' 프로그램들은 저마다 다릅니다.

1. 설계 장애

설계 장애는 적절한 계획을 통해, 그리고 유능한 벤더와의 협력을 통해 없앨 수 있습니다. 목표를 염두에 두고 시작해야 하며, 귀사의 요구사항을 명확하고도 상세하게 나타내는 설계 의도 문서를 작성하십시오. 새로운 구축이든 혹은 기존의 미션 크리티컬한 시설을 업그레이드하는 것이나 운영하는 것이든, 작업을 신중하게 계획하고 계획에 따라 진행하는 것이 중요합니다. 우수한 설계업체, 통합업체, 건축회사 및 시운전 팀은 물론 장애를 줄일 수 있는 숙련된 운영 직원들을 확보하는 것도 매우 중요합니다.

2. 재난 장애

포괄적인 유지보수 및 운영 프로그램을 사용하면 수많은 잠재적인 문제들을 식별하여 제거할 수 있으므로 돌발 장애를 방지하는 데 도움이 됩니다. 귀사의 프로그램에는 잘 정의된 유지보수 기간이 포함되어야 하며, 유지보수 작업이 수행되는 동안에 서비스가 중단되지 않도록 적절한 중복 기능이 내장되어야 합니다. 예측적 유지보수는 또 다른 중요한 고려사항으로서, 각각의 사건이 발생한 후에 철저한 장애 분석을 실시하는 일과 분석 결과를 이용하여 향후에 발생할 수 있는 문제를 예측하고 방지하는 일이 수반됩니다. 이는 바로 NTSB의 '교훈'을 통한 접근 방식과 마찬가지입니다. 운영 및 유지보수 직원을 위한 포괄적인 교육 프로그램을 갖추는 것도 중요합니다. 이는 장비 제조업체나 설치업체의 교육으로 시작하되 정기 교육을 꾸준히 실시함으로써 운영 및 유지보수 직원이 최신 지식을 숙지하도록 해야 합니다.

3. 복합 장애

때로는 여러 이벤트의 발생이 장애로 이어지는 경우가 있는데, 이를 복합 장애라고 합니다. 세부 사항에 대한 부주의가 복합 장애의 주된 원인입니다. 데이터 센터에 정전 사태가 발생할 경우 어떤 일이 일어날지 생각해 보십시오. 발전기가 시작 신호를 받아 즉시 구동되어야 합니다. 하지만 발전기의 배터리, 연료 및 냉각수 양을 지난 수개월 동안 확인해 보지도 않았다면 발전기는 구동되지 않을 수도 있습니다. 마찬가지로, 대규모 시설에서는 다소 성가신 요소들이 간과되는 경우도 있습니다. 이는 그 자체적으로는 시설에 부정적인 영향을 미치지 않지만, 다른 문제들과 결합될 경우 시스템 장애를 일으킬 수 있습니다.

4. 인적 오류에 의한 장애

인적 오류는 미션 크리티컬한 시설에 장애를 일으키는 주된 원인입니다. 앞서 언급했듯이 교육이 인적 장애의 발생을 줄이는 데 도움을 줄 수 있지만, 이 밖에도 구체적인 절차 방식(MOP)이 요구됩니다. MOP는 다양한 유지보수 기능들을 수행하는 방법을 상세하게 정의함으로써 이러한 기능들이 동일한 방식으로 일관성 있게 수행되도록 합니다. 기업들은 시설을 가동 상태로 만드는 데 급급한 나머지 MOP를 개발, 문서화 및 배포하지 않는 경우가 너무 많습니다. 이러한 절차는 조기에 수립되어야 하며 시설이 완전히 정상화되기 전에 테스트되어야 합니다. 절차가 개발될 때까지 기다렸다가 UPS 시스템을 유지보수 우회 경로로 옮겨갈 경우, 미리 시간을 투자하여 불가피한 상황에 대비했을 때보다 훨씬 더 많은 비용이 들 수 있습니다. MOP는 또한 파일럿/코파일럿 접근 방식으로 실행하여 절차가 T를 따르도록 해야 합니다.

모범 사례에 대한 더 자세한 내용은 슈나이더 일렉트릭의 백서 7, 미션 크리티컬한 시설의 가동 시간 극대화를 참조해 주십시오.