Como já explicamos em uma postagem relacionada com esta, muitos gerentes de TI relatam situações de períodos de inatividade em suas salas de servidor distribuídas e salas de cabeamento remotas causados por eventos inesperados, embora bastante comuns. Da análise desses relatos surge uma trama comum a todos: a falta de informações leva ao erro humano, provocando períodos de inatividade.

Consideremos estas estatísticas:

  • A IDC estima que somente nos EUA há 2,9 milhões de salas de servidor e de cabeamento.
  • Mais de 70% das interrupções de fornecimento elétrico em data centers informadas são diretamente atribuídas a erros humanos, segundo o Uptime Institute.
É possível projetar um sistema de monitoramento para obter as informações necessárias e evitar onerosos períodos de inatividade. Para projetar um sistema cuja função principal seja reduzir o número de erros humanos em salas do servidor remotas, quatro componentes críticos devem ser considerados: videovigilância, sensores, tomadas de saída inteligentes nos racks e software de monitoramento e automação.

Videovigilância e sensores

Os sistemas de monitoramento e automação escaláveis podem coletar, organizar e distribuir alertas e vídeos de vigilância críticos. Através do monitoramento da energia, refrigeração, das partes traseiras e frontais dos racks, e do ambiente, esses sistemas podem gerar notificações imediatas de falhas, permitir a avaliação rápida da situação e ocupar-se da resolução de eventos relacionados à infraestrutura crítica que podem ter efeitos negativos sobre a disponibilidade dos sistemas de TI.

Os sistemas de videovigilância podem ser conectados a sensores de movimento para, que cada vez que um movimento for detectado no ambiente, a câmera percorra a área e envie o vídeo para um gerente autorizado, que, rapidamente, poderá, por exemplo, corrigir situações como, por exemplo, a de um terceiro contratado que tenta embalar um servidor sem antes tê-lo desconectado.

Os sistemas de gerenciamento de câmeras permitem, com frequência, o rastreamento de funcionários de infraestrutura, fabricantes, pessoal de segurança, guardas ou outras pessoas que entram na sala do servidor ou de cabeamento remota. Um gerente poderia decidir fazer login no sistema de forma remota e observar as ações de quem estiver na sala. Alguns sistemas permitem a instalação de altofalantes para o gerente poder dar instruções ou fazer advertências ao visitante.

Tomadas de saída inteligentes em racks

As tomadas de saída inteligentes nos racks, também conhecidas como "PDU de rack”, são longas réguas de tomadas montadas na face interna da parte posterior de um rack. Esses dispositivos permitem que os usuários desliguem e liguem de forma remota os equipamentos que não respondem, e configurem a sequência para ligar ou desligar as diferentes tomadas; oferecem ainda a possibilidade de pré-determinar qual equipamento vai ligar primeiro, para que outros equipamentos dependentes dessa unidade funcionem corretamente.

O sistema de monitoramento evita as sobrecargas através da medição do consumo real usando as tomadas inteligentes nos racks, e oferece aos gerentes as informações de que eles precisam para decidir a localização de novos equipamentos.

Software de monitoramento e automação

Os sistemas de gerenciamento e automação oferecem aos gerentes abundantes informações para ajudá-los a reduzir períodos de inatividade causados por erros humanos, incluindo:
  • Envio de alertas e notificações quando os limites estabelecidos são ultrapassados, via e-mail, mensagem de texto, telefone ou outro método à escolha do usuário.
  • Controles do estado de todos os equipamentos e componentes, de servidores até baterias. Cabe lembrar que a falha de uma única bateria pode provocar a desconexão da carga crítica. O custo de substituir uma ou duas baterias é mínimo se comparado ao custo associado a uma falha que faça com que uma sala ou servidor interrompam sua operação.
  • Relatórios de análises: As informações coletadas pelo sistema de monitoramento podem ser transformadas em relatórios personalizados que poderão ser revisados pelo gerente de TI. Essa documentação pode informar os gerentes, por exemplo, sobre oscilações de temperatura, e fornecer os nomes das pessoas que estiveram trabalhando com cada rack e a duração das tarefas, bem como dados sobre o volume de carga conectada a um determinado nobreak.
  • Configuração em massa: Os gerentes podem emitir ordens de mudanças em massa para todos os dispositivos incluídos no sistema de monitoramento e automação, como para trancar 50 portas de racks ao mesmo tempo, talvez para protegê-los de pessoal de limpeza excessivamente meticuloso
  • Controle: Os dados detalhados oferecidos pelos sistemas de monitoramento e automação ajudam os gerentes a terem as informações necessárias para assumir o comando quando surgem problemas. Por exemplo, um sistema pode traçar um mapeamento das relações e dependências entre o sistema físico e o circuito de energia para ajudar a identificar a origem de um problema. Também pode ilustrar o efeito da falha de um dispositivo particular nos equipamentos montados em rack, ajudando a identificar o impacto sobre as aplicações comerciais críticas.
O aumento do controle do ambiente, o número de alertas e o volume de dados históricos pode ajudar a promover um ambiente menos exigido e com menos períodos de inatividade. Saiba mais fazendo o download do white paper da APC by Schneider Electric “Como os sistemas de monitoramento diminuem o erro humano em salas de servidores distribuídas e salas de cabeamento remotas”.