Planejamento de manutenção voltado a data centers e salas de servidores

Existem vários tipos de abordagens para por um plano de manutenção em ação, todos tem como o objetivo evitar interrupções em processos produtivos, de suporte como salas de servidores e data centers.
Tais manutenções devem ser realizadas por equipes especializadas porém algumas verificações podem ser feitas pelo time de operação ao entrar no ambiente.
É importante saber sobre alguns principios básicos de manutenção caso seja necessário elaborar um memorial descritivo para contratação de uma empresa que faça manutenção.
Ou em caso de equipes reduzidas até mesmo atuar na manutenção dentro da sua área de atuação como trocando uma fonte queimada de um dispositivo com redundancia, refazer as conexões de um patch panel, substituir um cordão defeituoso, etc.
É importante que todas as atribuições técnicas e condições de segurança sejam respeitadas. Um profissional de TI não deve substituir baterias de um nobreak ou desmontar uma unidade de condicionamento de ar.
Saiba mais sobre como a NR10 – SEGURANÇA EM INSTALAÇÕES E SERVIÇOS EM ELETRICIDADE trata pessoas não treinadas em contato com equipamentos elétricos ou ambientes perigosos.

manutenção rack de TI

Os passos iniciais para desenvolver um plano de manutenção e por em prática são:

Inspeção visual
A inspeção contínua é uma parte importante do processo de manutenção e indo além do que o próprio nome diz o correto é utilizar seus sentidos para perceber condições de operação anormais como:
Ruído excessivo
Temperatura do ar elevada
Umidade elevada
Cheiros deiferentes como de queimado.
Luzes indicando falhas e alarmes como uma fonte queimada em um device que tenha redundancia
Alarmes sonoros, etc.
Toda condição que possa ser anormal deve ser verificada pela pessoa/equipe responsável.

Limpeza
Manter o ambiente limpo protege os sistemas contra ameaças ambientais comuns. Por exemplo, o acúmulo de poeira e detritos pode dificultar o resfriamento e levar à falha de equipamentos e ao aumento do custo de resfriamento. A manutenção básica de limpeza pode incluir:
Remoção do acúmulo de poeira dos equipamentos
Limpeza do ambiente como piso, racks, armários, etc.

Testes
Teste componentes e sistemas críticos regularmente para garantir que estejam operando dentro das especificações desejadas. Por exemplo, o teste da bateria do UPS é fundamental para evitar falhas no sistema.

Relatórios e Monitoramento
Use medições, relatórios e outras análises para ajudar a identificar tendências e mudanças na infraestrutura que possam identificar problemas que exijam reparo ou substituição de equipamentos.

Planos de manutenção mais avançados

A abordagem tradicional para evitar downtime em processos críticos como uma sala de servidores, data centers ou outras áreas criticas é aplicar um plano de manutenção preventiva como a manutenção baseada no tempo (Time Based Maintenance) ou a Manutenção baseada nas condições (Condition Based Maintenance)
Podemos dizer que o time based maintenance é uma manutenção preventiva onde são verificados equipamentos e componentes e quando será necessário efetuar alguma substituição em espaços de tempo previamente estabelecidos. Isso com base no tempo médio de desgaste dos componentes, em informações oferecidas pelo fabricante e em históricos de manutenção.

Manutenção de detecção de falhas (Failure Finding Maintenance)
A manutenção de detecção de falhas geralmente é feita em equipamentos com redundância ou com função de proteção ou alarme é realizada para garantir que algum equipamento ou dispostivo de proteção estão operando corretamente. Dispositivos de proteção são aqueles projetados para chamar a atenção para um problema, pode citar como exemplo os equipamentos de deteccção e combate a incêndio, que passam por testes regulares durante o ano para garantir que irão funcionar em caso de um sinistro.
O ato de procurar pelo problema/falha é o que diferencia a detecção de falhas da manutenção preventiva e preditiva. Não estamos tentando prevenir ou prever uma falha, estamos procurando por ela.
Outro exemplo seria o teste de operação de um nobreak em uma siteuação controlada para garantir que em caso de interrupção no fornecimento de energia ele consiga manter os equipamentos criticos alimentados.

Infelizmente, a manutenção de detecção de falhas geralmente recebe baixa prioridade dos profissionais de manutenção, mas é fundamental para manter um ambiente seguro e, às vezes, prevenir os grandes desastres que ocorrem como resultado de várias falhas.

Manutenção baseada no tempo TBM (Time Based Maintenance).
Quando você troca o óleo do seu carro a cada 12 meses, está praticando a manutenção baseada no tempo. As atividades de manutenção baseadas em tempo podem envolver qualquer coisa, desde inspeção e limpeza até manutenção e substituição de peças. A frequência do TBM geralmente segue as recomendações do fabricante do equipamento ou o histórico de manutenção anterior do equipamento.
Podemos citar como exemplo a substituição das baterias de um sistema de UPS a cada 2 anos para evitar falhar críticas.
Seguir as recomendações do fabricantes é algo que pode ser facilmente implementado.

Manutenções Corretivas / Reparos
A manutenção corretiva inclui reparos como apertar porcas e parafusos ou substituir um cordão metálico ou ótico. As decisões de reparo e substituição são uma parte crítica do processo de manutenção para garantir a confiabilidade das operações do sistema.

Manutenções corretivas serão tratadas em um novo post.

admin

Posted by Bruno Armelim

Deixe um comentário