"O modelo de FCAPS da ISO lista o gerenciamento de falhas como uma das cinco principais áreas funcionais do gerenciamento proativo de rede e define o seu objetivo: reconhecer, isolar, corrigir e registrar falhas que ocorrem na rede.."

O gerenciamento de falhas de rede é o processo de localização, isolamento e solução de problemas de falhas de rede da maneira mais rápida possível. O gerenciamento de falhas é um componente fundamenta do gerenciamento de rede que minimiza o tempo de inatividade e evita falhas de dispositivos, resolvendo-as rapidamente, garantindo assim a disponibilidade ideal da rede e evitando perdas de negócios.

O monitoramento de falhas de rede é a primeira etapa do gerenciamento de falhas e, portanto, um requisito para o gerenciamento bem-sucedido da rede. A complexidade crescente das infraestruturas de redes híbridas tornaria o processo de gerenciamento de falhas oneroso se não fosse para os sistemas de gerenciamento de falhas. Uma ferramenta de gerenciamento de falhas segue um ciclo de quatro etapas para resolver problemas, conforme mostrado abaixo:

Como o OpManager combate falhas de rede

 Fault management- ManageEngine OpManager

O gerenciamento de falhas de rede consiste em manter-se atualizado sobre o que está ocorrendo na sua rede, seja uma interrupção imprevista ou uma degradação de desempenho. Você pode detectar, recuperar e limitar o impacto de falhas na sua rede usando o OpManager, nosso software de gerenciamento de falhas de rede 24x7. Os recursos poderosos do OpManager como sistema de gerenciamento de falhas de rede ajudam a isolar e resolver falhas rapidamente utilizando um fluxo de trabalho de quatro etapas.

1. Detectar: Seja o primeiro a capturar eventos

OpManager constantly monitors networks for faults and instantly detects when there is performance degradation or a service interruption. The fault detection can be done through active and passive monitoring.

 Fault detection- ManageEngine OpManager

Detecte falhas de rede em um piscar de olhos, mesmo antes que alguém perceba. O OpManager monitora as redes em busca de falhas constantemente e detecta quando há degradação de desempenho ou interrupção de serviço instantaneamente. A detecção de falhas pode ser realizada usando o monitoramento ativo e passivo.

O gerenciamento ativo de falhas detecta um evento verificando o status do dispositivo usando o Ping ICMP, verificações de portas TCP ou UDP, scripts personalizados, consulta remota e muito mais. Esta é uma abordagem ativa para identificar e corrigir possíveis problemas em tempo real, às vezes até antes de se tornarem uma falha.

Por outro lado, o gerenciamento passivo ou baseado em eventos monitora a rede em busca de eventos reais que indiquem falhas ou problemas somente após eles terem ocorrido. Isso pode ser feito usando traps SNMP, mensagens syslog, mensagens de logs de eventos do Windows e muito mais.

2. Isolar: Concentre-se apenas em falhas acionáveis

Uma vez detectado o problema, identificar sua causa-raiz é muito importante para melhorar o tempo de resolução (MTTR). A ideia desse processo de isolamento é eliminar eventos redundantes, reduzindo assim os alertas suspeitos e exibindo apenas falhas acionáveis. O OpManager faz isso com a ajuda dos três métodos discutidos abaixo.

De-duplicação

Quando um evento como alta utilização de memória é reportado e prevalece nos próximos 30 minutos, sua ferramenta não deve gerar vários alertas por meio de polling a cada três minutos durante 30 minutos. Nesses casos, o OpManager anexa eventos recorrentes ao histórico de alarmes, eliminando assim a duplicação e evitando vários alarmes para a mesma falha.

Correlação

Device-dependencies:

 Fault correlation- ManageEngine OpManager

Quando um roteador principal cai, é evidente que seus dispositivos dependentes também ficarão inativos. Caso a sua ferramenta de gerenciamento de falhas disparar alarmes para todos esses dispositivos, o tempo necessário para identificar a causa-raiz do problema será muito maior. A opção de dependências de dispositivos do OpManager ajuda a declarar dispositivos pai e dependentes, evitando assim esses alertas falsos, acionando um único alarme apenas para o dispositivo de origem (neste caso, um roteador principal). Com o recurso de mapeamento de rede, os administradores podem localizar e solucionar problemas rapidamente.

Root cause analysis (RCA):

 Fault correlation- ManageEngine OpManager

To narrow down the root cause of an issue, you need to compare and identify the correlation among the performance of multiple monitors. With OpManager's RCA profile, simply drag and drop the respective monitors for which you want to analyze the performance and a performance curve will be created for each. You can compare upto 20 monitors in a single window and performance graphs will be created for the selected monitors, helping you correlate and analyze performances of multiple monitors at once.

Automação

A automação abre caminho para uma resolução mais rápida, eliminando eventos injustificados (como picos insignificantes e incidentais), revertendo o status do alarme e suprimindo alarmes conhecidos. As outras automações que o OpManager oferece são:

3. Informar: Seja notificado de onde você estiver

Após o evento acionável ser isolado, o OpManager notifica os administradores do NOC sobre isso utilizando uma representação visual de falhas e informa os administradores remotos utilizando tickets de problemas e alertas.

 Fault notification- ManageEngine OpManager

4. Resolver: Corrija falhas com rapidez e facilidade

Nem todas as falhas detectadas são suficientemente graves para exigir a sua atenção imediata. Na maioria dos casos, sistemas de gerenciamento de falhas como o OpManager executa scripts designados ou fluxos de trabalho ao primeiro sinal de problema para automatizar a restauração do serviço e manter a rede funcionando. Quando a automação não funciona devido a erros, o OpManager escala o alarme para os administradores apropriados com os detalhes do evento e a próxima ação a ser tomada. Portanto, mesmo quando você está ocupado mudando de locais e andares para atender às necessidades da rede, a ferramenta de gerenciamento de falhas do OpManager mantém algumas falhas afastadas.

 Fault management- ManageEngine OpManager

Em alguns casos, essas resoluções automatizadas não são possíveis, sendo necessária uma intervenção manual. Você pode solucionar problemas para avaliar os danos e descobrir possíveis soluções rápidas usando as ferramentas de solução de problemas interativas, integradas e baseadas na web.

Por que você precisa do OpManager

"Segundo uma pesquisa realizada pelo Gartner, o custo médio do tempo de inatividade da rede para empresas é de cerca de US$ 5.600 por minuto, o que é superior a US$ 300.000 por hora em média e até US$ 540.000 por hora no segmento de ponta."

Como o tempo de inatividade tem um potencial tão grande de causar enormes prejuízos às empresas, é fundamental tomar as medidas necessárias para evitá-lo ou minimizá-lo. Prevenir o tempo de inatividade e manter o tempo de atividade da rede resumem-se ao monitoramento e gerenciamento eficaz das falhas de rede. Uma solução avançada de gerenciamento de falhas como o ManageEngine OpManager ajuda os administradores a resolver falhas rapidamente, protegendo a disponibilidade da rede e a receita da empresa.

VÍDEOS
OpManager Customer Videos
Altaleb Alshenqiti - Ministry of National Guard - Health Affairs
  
  •  IT Admin from "Royal flying doctor service", Australia
     Jonathan ManageEngine Customer
  •  Michael - Network & Tech, ManageEngine Customer
     Altaleb Alshenqiti - Ministry of National Guard - Health Affairs
  •  David Tremont, Associate Directory of Infrastructure,USA
     Todd Haverstock Administrative Director
  •  Donald Stewart, IT Manager from Crest Industries
     John Rosser, MIS Manager - Yale Chase Equipment & Services