O gerenciamento de incidentes de rede é essencial para o funcionamento da rede de TI de uma organização. O objetivo final do gerenciamento de incidentes de rede é simples: restaurar o serviço ou a funcionalidade o mais rápido possível no caso de uma interrupção.
O gerenciamento de incidentes parece bastante simples, mas para fazê-lo de forma eficiente e consistente, uma equipe de operações de TI precisa estar atenta, constantemente a par dos acontecimentos na rede e seguindo sistematicamente um conjunto de procedimentos.
Pela definição pura, o gerenciamento de incidentes é o processo de minimizar o impacto geral de um incidente, restaurando a funcionalidade total o mais rápido possível. Do ponto de vista da rede, um incidente pode ser uma interrupção imprevista da rede, uma inconsistência na qualidade do serviço (como banda larga flutuante) ou um evento que pode afetar o serviço para o usuário ou cliente no futuro.
Uma estrutura sólida de gerenciamento de incidentes estabelece a base para um gerenciamento eficiente de incidentes na prática. Com um processo em vigor, uma organização pode obter sinergia e clareza perfeitas entre as equipes. A gravidade do problema, a equipe que deve lidar com o incidente e o tempo de resposta ideal para resolver o problema são fatores-chave que determinam a eficiência de todo o processo.
1. Identifique e registre o incidente
Quando um membro da equipe de operações de TI inevitavelmente identifica que algo está errado na rede, isso deve ser registrado e rastreado. Com as ferramentas certas para relatar e documentar problemas, os incidentes podem ser rapidamente detectados pela equipe técnica. As ferramentas de monitoramento de rede também podem detectar e relatar incidentes automaticamente e se comunicar com os usuários finais.
2. Priorizar o incidente
Depois que os incidentes forem devidamente registrados no sistema, é fundamental segmentar e priorizar as tarefas. Isso permite determinar rapidamente o tempo necessário para resolver o problema, se é necessário um escalonamento e qual equipe lidará com o incidente. As categorias podem ser criadas de acordo com a camada ou a área da rede em que o incidente ocorreu, ou seja, rede, nuvem ou virtual.
A categorização ajuda a criar uma base de conhecimento de incidentes passados, ajudando você a analisar os incidentes de forma independente para evitar incidentes futuros. Além disso, os incidentes também podem ser identificados de acordo com a gravidade, como alta, média ou baixa. A priorização de incidentes traz ordem e permite que eles sejam classificados, possibilitando que a equipe de TI automatize incidentes de baixa prioridade ou repetitivos e reúna todos os esforços para resolver incidentes de maior gravidade.
Na maioria das organizações, os incidentes são classificados com base na gravidade, como L1, L2 e L3.
3. Investigar e responder ao incidente
Depois que os incidentes são classificados de forma ordenada, a equipe de operações de TI começa a tarefa de investigar e resolver o problema. Com uma sólida base de conhecimento de incidentes anteriores atuando como referência e uma equipe de TI capacitada, o incidente pode ser investigado e resolvido com eficiência. A análise da causa raiz é usada para detectar a causa raiz do problema. A equipe de gerenciamento de incidentes pode então se esforçar para retomar rapidamente o serviço de TI com defeito.
No gerenciamento de incidentes, a equipe que responde automaticamente a um incidente é a equipe de primeiro nível. Os incidentes do dia a dia podem ser amplamente resolvidos pela equipe de primeiro nível. Mas alguns incidentes precisarão de mais atenção e conhecimento, exigindo o escalonamento para uma equipe mais especializada. As equipes de escalonamento serão capazes de resolver tarefas complexas graças a mais conhecimento e recursos à sua disposição.
4. Resolução de incidentes
A equipe técnica que lida com um incidente se concentra em resolvê-lo o mais rápido possível para que a rede possa voltar a funcionar. Depois que o problema for corrigido, é fundamental que haja uma comunicação rápida e clara com as partes interessadas. Isso verifica se todas as equipes afetadas podem continuar com seu trabalho. Quando todas as partes interessadas confirmarem e estiverem satisfeitas com a restauração do serviço, o incidente será encerrado e a resolução será documentada.
Tipos de incidentes
Os incidentes podem ser classificados de acordo com os componentes de rede que afetam.
Hardware: Os dispositivos de rede podem cair, ficar lentos ou sofrer uma interrupção. O hardware essencial, como servidores, CPUs, roteadores, monitores e impressoras, está sujeito a interrupções.
Software: Problemas relacionados a software podem afetar aplicativos internos que são essenciais para uma organização. Isso também pode incluir problemas que afetam o antivírus ou o sistema operacional, o que pode tornar a rede mais lenta.
Segurança: Os incidentes relacionados à segurança são ameaças ativas e potenciais à rede, o que pode levar a uma violação de dados e comprometer toda a infraestrutura.
Rede: No nível da rede, os incidentes podem ser relevantes para protocolos, dispositivos de rede críticos ou outros componentes de infraestrutura que são essenciais para o funcionamento normal da rede. Exemplos são os incidentes que afetam o DHCP, as VPNs, os endereços IP, o DNS e assim por diante.
Banco de dados: Os bancos de dados são fundamentais para as redes. Os incidentes nessa área podem estar relacionados a DB2, Oracle, MS SQL Server ou outros bancos de dados com gargalos.
O OpManager, com seus poderosos recursos de monitoramento de rede, oferece visibilidade profunda do desempenho dos componentes críticos da rede, incluindo roteadores, switches, firewalls, balanceadores de carga, controladores de LAN sem fio, servidores, VMs, impressoras e dispositivos de armazenamento.
Monitoramento de rede: Obtenha visibilidade detalhada com monitores predefinidos e específicos do dispositivo. Monitore todos os seus dispositivos quanto à disponibilidade, ao desempenho, ao tráfego e a outros parâmetros. Os limites de vários níveis e o suporte a notificações instantâneas facilitam o gerenciamento proativo da rede.
Monitoramento de servidores físicos e virtuais: Monitore os recursos do sistema dos servidores, como uso da CPU, consumo de memória, uso de disco e processos. O OpManager pode monitorar servidores Hyper-V, VMware, Citrix, Xen e Nutanix HCI.
Análise de causa raiz (RCA): Crie um perfil RCA para um problema que você deseja resolver. O perfil RCA do OpManager é uma plataforma central que agrega os dados de desempenho dos dispositivos, ajudando você a comparar, analisar e chegar à raiz do problema.