관련 게시물에서 설명했듯이, 많은 IT 관리자들은 예상치는 못했지만 다소 반복적인 이벤트로 인해 분산 서버실과 원격 배선실에서 가동 중단 시간이 발생했다고 토로하고 있습니다. 이러한 사례를 분석해보면 공통적인 맥락이 드러납니다. 즉, 정보 부족이 인적 오류로 이어지고, 이는 다시 가동 중단 시간을 야기한다는 것입니다.

통계를 살펴보자면,

  • IDC는 미국에만도 290만 개의 서버실과 배선실이 있을 것으로 추산하고 있습니다.
  • Uptime Institute에 따르면, 보고된 데이터 센터 정전 사고 중 70% 이상의 직접적인 원인은 인적 오류라고 합니다.
모니터링 시스템을 설계함으로써 많은 비용을 초래하는 가동 중단 시간을 피하기 위해 필요한 정보를 제공받을 수 있습니다. 원격 서버실에서 인적 오류가 발생하지 않도록 제한하는 것이 일차적인 역할인 시스템의 경우에는 비디오 감시, 센서, 지능형 랙 콘센트 그리고 모니터링 및 자동화 소프트웨어라는 4가지 핵심 구성요소를 고려해야 합니다.

비디오 감시와 센서

확장 가능한 모니터링 및 자동화 시스템은 중요한 경보 및 감시 동영상을 수집, 정리 및 배포할 수 있습니다. 이러한 시스템은 전원, 냉각장치, 랙의 전면과 후면 그리고 주변 환경을 모니터링함으로써 결함을 즉각 알리고 상황을 신속하게 평가할 수 있도록 하며, IT 시스템의 가용성에 악영향을 미칠 수 있는 심각한 인프라 사고에 대한 해결안을 제공합니다.

비디오 감시 시스템을 모션 센서에 연계시켜 모션이 감지될 때마다 카메라가 해당 구역을 패닝하여 승인된 관리자에게 동영상을 전송하도록 함으로써 관리자가 상황을 신속하게 해결하도록 할 수 있습니다(예: 계약업체의 라이브 서버 수축 포장).

카메라 관리 시스템은 대개 서버실이나 원격지의 배선실에 들어오는 시설 직원, 공급업체, 보안 담당자, 관리인 및 기타 방문자들을 추적할 수 있게 해줍니다. 관리자는 원한다면 원격으로 시스템에 로그인하거나 설비실 안에 있는 어떠한 사람의 행동이라도 관찰할 수 있습니다. 일부 시스템에는 스피커를 장착하여 관리자가 방문자에게 지시를 내리거나 주의를 줄 수 있습니다.

지능형 랙 콘센트

지능형 랙 콘센트는 랙 장착형 PDU라고도 하는데, 랙의 후면 내부에 장착되어 있는 길고 가느다란 전기 콘센트 멀티탭입니다. 사용자는 이 장치를 이용하여 고정된 장비에 대해 원격으로 전력을 재순환 시키고 각 콘센트의 전원이 켜지거나 꺼지는 순서를 구성함으로써 어떤 장비를 먼저 켤 것인지 사전에 결정할 수 있습니다. 이로써 해당 장치에 종속된 다른 장비가 정상적으로 기능하게 됩니다.

모니터링 시스템은 지능형 랙 콘센트를 통해 실제로 소비되는 전력량을 측정하여 과부하를 방지합니다. 이는 관리자가 새로운 장비를 배치할 장소를 결정하는 데 필요한 정보를 제공합니다.

모니터링 및 자동화 소프트웨어

관리 및 자동화 시스템이 관리자에게 제공하는 풍부한 데이터는 인적 오류로 인한 가동 중단 시간을 줄여줍니다. 여기에는 다음 사항들이 포함됩니다.
  • 임계값 초과 시 사용자가 선택한 수단(이메일이나 문자 메시지, 전화 등)을 통해 경보와 알림을 전송.
  • 서버에서 배터리에 이르기까지 모든 것에 대한 장비 상태 점검. 배터리가 한 개만 고장 나도 중요 부하의 손실을 가져올 수 있다는 점에 유의해야 합니다. 배터리 한두 개를 교체하는 데 드는 비용은 설비실이나 서버의 작동 중단을 야기하는 고장으로 인해 발생하는 비용에 비하면 아무 것도 아닙니다.
  • 분석결과 보고: 모니터링 시스템에 의해 수집된 데이터는 IT 관리자가 검토할 수 있도록 맞춤화된 보고서로 변환될 수 있습니다. 이러한 보고서를 통해 관리자는 온도 변동, 누가 어떤 랙에 얼마나 오래 있었는지, 그리고 특정 UPS에 걸린 부하량 등의 상황을 파악할 수 있습니다.
  • 일괄 구성: 관리자는 중앙 집중식 모니터링 및 자동화 시스템에 프로파일링된 모든 장치에 대해 일괄 변경 명령을 내릴 수 있습니다(예: 50개의 랙 도어를 한 번에 잠가서 지나치게 열성적인 청소원이 들어가지 못하도록 함).
  • 제어: 모니터링 및 자동화 시스템의 상세 데이터는 문제 발생 시 관리자가 이를 통제하는 데 필요한 정보를 제공해 줍니다. 예를 들어, 시스템은 전력 경로 및 물리적 시스템 관계와 종속성을 매핑하여 문제의 원인 파악을 도와줄 수 있습니다. 또한 시스템은 특정 장치의 고장이 랙 기반 장비에 미치는 결과를 보여줌으로써 비즈니스에 미치는 중요한 영향을 파악할 수 있도록 도와 줍니다.
환경에 대한 통제력 강화와 경보 및 이력 데이터의 증가는 스트레스가 적은 환경을 조성하여 가동 중단 시간을 줄일 수 있습니다. 더 자세한 내용을 확인하려면 APC by Schneider Electric의 백서, '모니터링 시스템이 분산 서버실과 원격 배선실의 인적 오류를 줄이는 방법'을 다운로드하십시오.